論文の概要: Soft Condorcet Optimization for Ranking of General Agents
- arxiv url: http://arxiv.org/abs/2411.00119v2
- Date: Mon, 04 Nov 2024 13:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:52.001704
- Title: Soft Condorcet Optimization for Ranking of General Agents
- Title(参考訳): 一般エージェントのランク付けのためのソフトコンドルセット最適化
- Authors: Marc Lanctot, Kate Larson, Michael Kaisers, Quentin Berthet, Ian Gemp, Manfred Diaz, Roberto-Rafael Maura-Rivero, Yoram Bachrach, Anna Koop, Doina Precup,
- Abstract要約: AIモデルとエージェントの進歩を促進する一般的な方法は、標準化されたベンチマークでのパフォーマンスを比較することである。
本稿では,Soft Condorcet Optimization(SCO)と呼ばれる社会的選択フレームワークに着想を得た新しいランキング手法について述べる。
SCOランキングは、PrefLibオープンランキングアーカイブの865の選好プロファイルにまたがる正規化Kendall-Tau距離の最適ランキングから、平均0から0.043まで離れている。
- 参考スコア(独自算出の注目度): 44.90789674063613
- License:
- Abstract: A common way to drive progress of AI models and agents is to compare their performance on standardized benchmarks. Comparing the performance of general agents requires aggregating their individual performances across a potentially wide variety of different tasks. In this paper, we describe a novel ranking scheme inspired by social choice frameworks, called Soft Condorcet Optimization (SCO), to compute the optimal ranking of agents: the one that makes the fewest mistakes in predicting the agent comparisons in the evaluation data. This optimal ranking is the maximum likelihood estimate when evaluation data (which we view as votes) are interpreted as noisy samples from a ground truth ranking, a solution to Condorcet's original voting system criteria. SCO ratings are maximal for Condorcet winners when they exist, which we show is not necessarily true for the classical rating system Elo. We propose three optimization algorithms to compute SCO ratings and evaluate their empirical performance. When serving as an approximation to the Kemeny-Young voting method, SCO rankings are on average 0 to 0.043 away from the optimal ranking in normalized Kendall-tau distance across 865 preference profiles from the PrefLib open ranking archive. In a simulated noisy tournament setting, SCO achieves accurate approximations to the ground truth ranking and the best among several baselines when 59\% or more of the preference data is missing. Finally, SCO ranking provides the best approximation to the optimal ranking, measured on held-out test sets, in a problem containing 52,958 human players across 31,049 games of the classic seven-player game of Diplomacy.
- Abstract(参考訳): AIモデルとエージェントの進歩を促進する一般的な方法は、標準化されたベンチマークでのパフォーマンスを比較することである。
汎用エージェントのパフォーマンスを比較するには、さまざまなタスクにまたがって個々のパフォーマンスを集約する必要がある。
本稿では,エージェントの最適ランキングを計算するための社会的選択フレームワークであるSCO(Soft Condorcet Optimization)に着想を得た新しいランキング手法について述べる。
この最適なランキングは、評価データ(私たちが投票と見なす)が、コンドルチェットの投票システム基準に対する解決策である根本的真実ランキングからノイズの多いサンプルとして解釈されるときの最大推定値である。
SCOレーティングはコンドルセットの勝者が存在する場合の最大値であり、古典的なレーティングシステムであるEloには必ずしも当てはまらないことを示す。
SCO評価を計算し,その経験的性能を評価するための3つの最適化アルゴリズムを提案する。
ケメニー・ヨンの投票方法の近似として機能する場合、SCOランキングはPrefLibのオープンランキングアーカイブから865の選好プロファイルにまたがる正規化ケンダル・タウ距離の最適ランキングから平均0から0.043まで離れている。
シミュレーションノイズトーナメント設定において、SCOは、選好データの59\%以上の欠落時に、地上の真理ランクと複数のベースラインのうちの最高点との正確な近似を達成する。
最後に、SCOランキングは、古典的な7人プレイヤゲームである外交の31,049ゲームにまたがる52,958人のプレイヤーを含む問題において、ホールトアウトテストセットで測定された最適なランキングに最適な近似を提供する。
関連論文リスト
- Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Fast online ranking with fairness of exposure [29.134493256287072]
このアルゴリズムは計算が高速で、ソート演算が支配的であり、メモリ効率が良く、理論的な保証も強いことを示します。
ユーザ側のパフォーマンスを最大化する基本方針と比較して,提案アルゴリズムは,計算オーバーヘッドが無視できるような推奨事項に,露出基準の複雑な公平性を組み込むことができる。
論文 参考訳(メタデータ) (2022-09-13T12:35:36Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - On the Linear Ordering Problem and the Rankability of Data [0.0]
線形度合いを使用して、データの割合が最適なランキングと一致するかを定量化します。
スポーツの文脈では、これはランキングが後から正確に予測できるゲームの数に類似している。
LOPを用いて計算した最適ランキングは、ランキングの後方精度を最大化することを示す。
論文 参考訳(メタデータ) (2021-04-12T21:05:17Z) - A Differentiable Ranking Metric Using Relaxed Sorting Operation for
Top-K Recommender Systems [1.2617078020344619]
推薦システムは、項目の選好スコアを計算し、スコアに応じて項目をソートし、上位K項目を高いスコアでフィルタリングすることで、パーソナライズされたレコメンデーションを生成する。
このレコメンデーション手順にはソートやランキング項目が不可欠ですが、エンドツーエンドのモデルトレーニングのプロセスにそれらを組み込むのは簡単ではありません。
これにより、既存の学習目標とレコメンデータのランキングメトリクスの矛盾が生じる。
本稿では,この不整合を緩和し,ランキングメトリクスの微分緩和を利用してレコメンデーション性能を向上させるDRMを提案する。
論文 参考訳(メタデータ) (2020-08-30T10:57:33Z) - Necessarily Optimal One-Sided Matchings [49.0517583218216]
我々は、$n$エージェントと$n$オブジェクトとをマッチングする古典的な問題について研究する。
エージェントに完全な選好を報告させる代わりに、私たちのゴールは部分的な選好から望ましいマッチングを学ぶことです。
我々は,与えられたマッチングが NPO か NRM かを確認し,そのようなマッチングが与えられたトップ$k$ の部分的選好が存在するかどうかを確認するために,効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-07-17T16:01:34Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。