論文の概要: Soft Tournament Equilibrium
- arxiv url: http://arxiv.org/abs/2604.04328v1
- Date: Mon, 06 Apr 2026 00:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.046801
- Title: Soft Tournament Equilibrium
- Title(参考訳): ソフトトーナメント平衡
- Authors: Saad Alqithami,
- Abstract要約: 本稿では,設定されたトーナメントソリューションを学習・計算するための差別化可能なフレームワークであるソフトトーナメント平衡(STE)を紹介する。
出力はコアエージェントのセットで、それぞれがキャリブレーションされたメンバーシップスコアを持ち、エージェント能力の微妙で堅牢な評価を提供する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of general-purpose artificial agents, particularly those based on large language models, presents a significant challenge due to the non-transitive nature of their interactions. When agent A defeats B, B defeats C, and C defeats A, traditional ranking methods that force a linear ordering can be misleading and unstable. We argue that for such cyclic domains, the fundamental object of evaluation should not be a ranking but a set-valued core, as conceptualized in classical tournament theory. This paper introduces Soft Tournament Equilibrium (STE), a differentiable framework for learning and computing set-valued tournament solutions directly from pairwise comparison data. STE first learns a probabilistic tournament model, potentially conditioned on rich contextual information. It then employs novel, differentiable operators for soft reachability and soft covering to compute continuous analogues of two seminal tournament solutions: the Top Cycle and the Uncovered Set. The output is a set of core agents, each with a calibrated membership score, providing a nuanced and robust assessment of agent capabilities. We develop the theoretical foundation for STE to prove its consistency with classical solutions in the zero-temperature limit, which establishes its Condorcet-inclusion properties, and analyzing its stability and sample complexity. We specify an experimental protocol for validating STE on both synthetic and real-world benchmarks. This work aims to provide a complete, standalone treatise that re-centers general-agent evaluation on a more appropriate and robust theoretical foundation, moving from unstable rankings to stable, set-valued equilibria.
- Abstract(参考訳): 汎用人工エージェントの評価,特に大規模言語モデルに基づく評価は,それらの相互作用の非推移的な性質から,大きな課題となっている。
エージェントAがBを倒すと、BがCを倒し、CがAを倒すと、線形順序付けを強制する従来のランク付け方法が誤解を招き不安定になる。
このような循環領域に対しては、古典的なトーナメント理論において概念化されているように、評価の基本的な対象はランキングではなく、集合値コアであるべきだと論じる。
本稿では,ペア比較データから直接,セット値のトーナメントソリューションを学習し,計算するための差別化可能なフレームワークであるSoft Tournament Equilibrium(STE)を紹介する。
STEはまず、リッチなコンテキスト情報に基づく確率的トーナメントモデルを学ぶ。
次に、ソフトリーチビリティとソフトカバーのための新しい微分可能な演算子を使用して、2つのセミナルトーナメントソリューション、トップサイクルとアンサードセットの連続的なアナログを計算する。
出力はコアエージェントのセットで、それぞれがキャリブレーションされたメンバーシップスコアを持ち、エージェント能力の微妙で堅牢な評価を提供する。
本研究では, ゼロ温度限界における古典解との整合性を証明し, コンドルチェット包摂特性を確立し, 安定性と試料の複雑さを解析する理論基盤を開発する。
我々は,合成ベンチマークと実世界のベンチマークの両方において,STEを検証するための実験的プロトコルを規定する。
この研究は、不安定なランクから安定して設定された値の平衡へと移行し、より適切で堅牢な理論基盤における一般エージェントの評価を再中心化する完全なスタンドアロンの論文を提供することを目的としている。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。
本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。
本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文 参考訳(メタデータ) (2026-01-30T09:24:52Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文 参考訳(メタデータ) (2025-09-25T10:49:35Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。