論文の概要: Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation
- arxiv url: http://arxiv.org/abs/2510.02306v1
- Date: Thu, 02 Oct 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.290053
- Title: Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation
- Title(参考訳): 図面からの抜粋:アリーナスタイルLCM評価における選好セマンティクスの再考
- Authors: Raphael Tang, Crystina Zhang, Wenyan Li, Carmen Lai, Pontus Stenetorp, Yao Lu,
- Abstract要約: ドローが真に2つのモデルが等しいことを意味するかどうかを調べる。
我々は、ドローの方がクエリの難しさを示すと推測する。
我々は、既存のドローセマンティクスを再考する将来の評価システムを提案する。
- 参考スコア(独自算出の注目度): 17.451562591754698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In arena-style evaluation of large language models (LLMs), two LLMs respond to a user query, and the user chooses the winning response or deems the "battle" a draw, resulting in an adjustment to the ratings of both models. The prevailing approach for modeling these rating dynamics is to view battles as two-player game matches, as in chess, and apply the Elo rating system and its derivatives. In this paper, we critically examine this paradigm. Specifically, we question whether a draw genuinely means that the two models are equal and hence whether their ratings should be equalized. Instead, we conjecture that draws are more indicative of query difficulty: if the query is too easy, then both models are more likely to succeed equally. On three real-world arena datasets, we show that ignoring rating updates for draws yields a 1-3% relative increase in battle outcome prediction accuracy (which includes draws) for all four rating systems studied. Further analyses suggest that draws occur more for queries rated as very easy and those as highly objective, with risk ratios of 1.37 and 1.35, respectively. We recommend future rating systems to reconsider existing draw semantics and to account for query properties in rating updates.
- Abstract(参考訳): 大規模言語モデル(LLM)のアリーナスタイルの評価では、2つのLLMがユーザクエリに応答し、ユーザは勝利の応答を選択するか、あるいは引き分けを「バトル」とみなす。
これらの格付け力学をモデル化するための一般的なアプローチは、チェスのように戦闘を2つのプレイヤーのゲームマッチと見なし、エロ格付けシステムとそのデリバティブを適用することである。
本稿では,このパラダイムを批判的に検討する。
具体的には、ドローが真に2つのモデルが等しいことを意味しているかどうかを問う。
代わりに、ドローはクエリの難しさの指標である、と推測する:クエリが簡単すぎる場合、両方のモデルが同等に成功する可能性が高い。
実世界の3つのアリーナデータセットにおいて、ドローに対する評価更新を無視すると、研究対象の4つのレーティングシステムすべてに対して、戦闘結果予測精度(ドローを含む)が1-3%向上することを示す。
さらに分析により、非常に容易と評価されたクエリと高い客観的と評価されたクエリに対して、それぞれ1.37と1.35のリスク比でドローが発生することが示唆された。
我々は、既存のドローセマンティクスを再考し、レーティング更新におけるクエリ特性を考慮し、将来のレーティングシステムを提案する。
関連論文リスト
- What-If Analysis of Large Language Models: Explore the Game World Using Proactive Thinking [50.72154186522052]
大規模言語モデル(LLM)は情報処理をリアクティブに行う能力に優れるが、仮説的未来を体系的に探索する能力に欠ける。
提案するWiA-LLMは,LLMにプロアクティブな思考能力を持たせる新しいパラダイムである。
複雑なマルチプレイヤーゲーム環境であるHonor of KingsにおけるWiA-LLMを検証する。
論文 参考訳(メタデータ) (2025-09-05T04:05:27Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - Chess Rating Estimation from Moves and Clock Times Using a CNN-LSTM [11.340099493701029]
本稿では,ゲームの動きや時計時間から直接プレイヤーの格付けを推定する手法を提案する。
我々のモデルアーキテクチャは、位置特徴を学習するためのCNNで構成されており、時計時間データと統合された双方向LSTMである。
このモデルは、手作りの機能を使わずにチェスのレーティングを推定し、各移動後にレーティング予測を出力した最初のモデルである。
論文 参考訳(メタデータ) (2024-09-17T19:19:16Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Action Quality Assessment using Siamese Network-Based Deep Metric
Learning [7.945673227394573]
提案されたスコアリングモデルはオリンピックのダイビングと体育のヴォートでテストされている。
このモデルは、既存の最先端のスコアリングモデルよりも優れています。
論文 参考訳(メタデータ) (2020-02-27T14:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。