Fugu-MT 論文翻訳(概要): Evaluating Agents using Social Choice Theory

論文の概要: Evaluating Agents using Social Choice Theory

arxiv url: http://arxiv.org/abs/2312.03121v2
Date: Thu, 7 Dec 2023 02:16:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 11:19:57.571975
Title: Evaluating Agents using Social Choice Theory
Title（参考訳）: 社会的選択理論を用いたエージェント評価
Authors: Marc Lanctot, Kate Larson, Yoram Bachrach, Luke Marris, Zun Li, Avishkar Bhoopchand, Thomas Anthony, Brian Tanner, Anna Koop
Abstract要約: 我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
参考スコア（独自算出の注目度）: 21.26784305333596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We argue that many general evaluation problems can be viewed through the lens of voting theory. Each task is interpreted as a separate voter, which requires only ordinal rankings or pairwise comparisons of agents to produce an overall evaluation. By viewing the aggregator as a social welfare function, we are able to leverage centuries of research in social choice theory to derive principled evaluation frameworks with axiomatic foundations. These evaluations are interpretable and flexible, while avoiding many of the problems currently facing cross-task evaluation. We apply this Voting-as-Evaluation (VasE) framework across multiple settings, including reinforcement learning, large language models, and humans. In practice, we observe that VasE can be more robust than popular evaluation frameworks (Elo and Nash averaging), discovers properties in the evaluation data not evident from scores alone, and can predict outcomes better than Elo in a complex seven-player game. We identify one particular approach, maximal lotteries, that satisfies important consistency properties relevant to evaluation, is computationally efficient (polynomial in the size of the evaluation data), and identifies game-theoretic cycles.
Abstract（参考訳）: 多くの一般的な評価問題は、投票理論のレンズを通して見ることができる。各タスクは独立した投票者として解釈され、全体的な評価を得るためには順序付けやエージェントの対比較のみを必要とする。アグリゲータを社会福祉機能と見なすことで、数世紀にわたる社会選択理論の研究を活用し、原理評価の枠組みを公理的基盤で導出することができる。これらの評価は解釈可能で柔軟であるが、現在クロスタスク評価に直面している多くの問題を回避している。我々は、強化学習、大規模言語モデル、人間を含む複数の設定にまたがって、この投票・評価(vase)フレームワークを適用する。実際には、VasEは一般的な評価フレームワーク(EloとNash平均化)よりも堅牢であり、スコアだけでは明らかでない評価データの特性を発見し、複雑な7人プレイゲームにおいて、Eloよりも優れた結果を予測することができる。評価に関連する重要な一貫性特性を満足し,計算効率(評価データの大きさのポリノミカル)を高く評価し,ゲーム理論のサイクルを同定する。

関連論文リスト

PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review [1.2178992475191557]
完全自律的なエンドツーエンド評価フレームワークであるPeerRankを紹介します。モデルは評価タスクを生成し、カテゴリスコープによるライブWebグラウンドで答える。 PeerRankは評価を、各モデルがタスクデザイナ、応答者、評価者として対称に参加するマルチエージェントプロセスとして扱う。
論文参考訳（メタデータ） (2026-02-01T06:01:28Z)
LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation [41.42324204820521]
本研究は,ゲーム理論の原理が大規模言語モデル(LLM)の評価に効果的に適用できるかどうかを考察する。そこで我々は,LLMが自己再生とピアレビューを通じて相互の出力を評価できる新しい代替案を提案する。本フレームワークでは,ゲーム理論の投票アルゴリズムを組み込んでピアレビューを集約し,モデル生成ランキングが人間の嗜好を反映するかどうかを原則的に調査する。
論文参考訳（メタデータ） (2025-10-17T15:34:25Z)
CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文参考訳（メタデータ） (2025-08-12T16:49:18Z)
From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Bayesian Active Learning for Multi-Criteria Comparative Judgement in Educational Assessment [3.0098452499209705]
比較判断(CJ)は、仕事を個別の基準に分解するのではなく、全体的評価によって代替的な評価手法を提供する。この方法は、人間によるニュアンスの比較能力を活用し、より信頼性が高く有効な評価を得る。ルーブリックは教育で広く使われており、グレーディングと詳細なフィードバックのための構造化された基準を提供しています。これにより、CJの総合的なランキングと、基準に基づくパフォーマンスのブレークダウンの必要性の間にギャップが生じる。
論文参考訳（メタデータ） (2025-03-01T13:12:41Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Do You Hear The People Sing? Key Point Analysis via Iterative Clustering and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。キーポイントの評価は自動的に生成された要約が役に立つことを保証するのに不可欠です
論文参考訳（メタデータ） (2023-05-25T12:43:29Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文参考訳（メタデータ） (2022-10-11T20:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。