論文の概要: Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms
- arxiv url: http://arxiv.org/abs/2601.07651v1
- Date: Mon, 12 Jan 2026 15:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.514421
- Title: Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms
- Title(参考訳): 一般エージェントの能動的評価:問題定義とベースラインアルゴリズムの比較
- Authors: Marc Lanctot, Kate Larson, Ian Gemp, Michael Kaisers,
- Abstract要約: 複数のタスクにまたがるエージェントの能動的評価のための形式的定義と概念的枠組みを提案する。
各イテレーションで、ランキングアルゴリズムはタスクとエージェントを選択し、スコアをサンプリングする。
古典的エロ格付けシステムは,実際のランキング誤差を効率よく低減するための一貫した信頼性の高い選択であることがわかった。
- 参考スコア(独自算出の注目度): 18.53965204068826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As intelligent agents become more generally-capable, i.e. able to master a wide variety of tasks, the complexity and cost of properly evaluating them rises significantly. Tasks that assess specific capabilities of the agents can be correlated and stochastic, requiring many samples for accurate comparisons, leading to added costs. In this paper, we propose a formal definition and a conceptual framework for active evaluation of agents across multiple tasks, which assesses the performance of ranking algorithms as a function of number of evaluation data samples. Rather than curating, filtering, or compressing existing data sets as a preprocessing step, we propose an online framing: on every iteration, the ranking algorithm chooses the task and agents to sample scores from. Then, evaluation algorithms report a ranking of agents on each iteration and their performance is assessed with respect to the ground truth ranking over time. Several baselines are compared under different experimental contexts, with synthetic generated data and simulated online access to real evaluation data from Atari game-playing agents. We find that the classical Elo rating system -- while it suffers from well-known failure modes, in theory -- is a consistently reliable choice for efficient reduction of ranking error in practice. A recently-proposed method, Soft Condorcet Optimization, shows comparable performance to Elo on synthetic data and significantly outperforms Elo on real Atari agent evaluation. When task variation from the ground truth is high, selecting tasks based on proportional representation leads to higher rate of ranking error reduction.
- Abstract(参考訳): 知的エージェントがより一般的に使えるようになるにつれ、様々なタスクをマスターできるようになり、それらを適切に評価する複雑さとコストが著しく上昇する。
エージェントの特定の能力を評価するタスクは相関し、確率的であり、正確な比較のために多くのサンプルを必要とする。
本稿では,複数のタスクにまたがるエージェントの能動的評価のための形式的定義と概念的枠組みを提案する。
既存のデータセットを前処理のステップとしてキュレート、フィルタリング、圧縮する代わりに、オンラインフレーミングを提案し、各イテレーションでランキングアルゴリズムがタスクとエージェントを選択してスコアをサンプリングする。
そして、評価アルゴリズムは、各イテレーションにおけるエージェントのランク付けを報告し、そのパフォーマンスを、時間とともに、地上の真実のランク付けに関して評価する。
いくつかのベースラインは異なる実験条件下で比較され、合成されたデータと、Atariゲームプレイングエージェントの実際の評価データへのオンラインアクセスがシミュレートされる。
古典的なEloレーティングシステム(理論上はよく知られた障害モードに悩まされているが)は、実際にランキングエラーを効率よく減らすための一貫した信頼できる選択肢である。
最近提案されたSoft Condorcet Optimizationは、合成データ上でのEloと同等の性能を示し、実際のAtariエージェント評価においてEloを著しく上回っている。
基底真理からのタスクの変動が大きい場合、比例表現に基づくタスクの選択は、ランク付けエラーの低減率を高める。
関連論文リスト
- CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文 参考訳(メタデータ) (2025-09-25T10:49:35Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Learning when to rank: Estimation of partial rankings from sparse, noisy comparisons [0.0]
偏位を学習するための原理的非パラメトリックベイズ法(階層付きランク)を開発する。
そこで本研究では,実データと合成データを用いて,本手法の性能について検討する。
論文 参考訳(メタデータ) (2025-01-05T11:04:30Z) - Heuristic Search for Rank Aggregation with Application to Label Ranking [16.275063634853584]
本稿では,階層化問題を解くために,効果的なハイブリッド進化的ランキングアルゴリズムを提案する。
このアルゴリズムは、コンコーダントペアに基づくセマンティッククロスオーバーと、効率的な漸進的評価手法によって強化された遅延受容局所探索を特徴とする。
アルゴリズムを評価するために実験が行われ、ベンチマークインスタンス上での高い競争性能を示す。
論文 参考訳(メタデータ) (2022-01-11T11:43:17Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Poisoning Attack against Estimating from Pairwise Comparisons [140.9033911097995]
攻撃者はランクリストを操作するための強い動機と動機を持っている。
ペアワイズランキングアルゴリズムに対するデータ中毒攻撃は、ローダとアタッカーの間の動的および静的ゲームとして形式化することができる。
本稿では、2つの効率的な毒殺攻撃アルゴリズムを提案し、関連する理論的保証を確立する。
論文 参考訳(メタデータ) (2021-07-05T08:16:01Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。