論文の概要: [Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games
- arxiv url: http://arxiv.org/abs/2602.18230v1
- Date: Fri, 20 Feb 2026 14:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.345479
- Title: [Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games
- Title(参考訳): スコアブルゲームによるネゴシエーションにおけるLLM能力のベンチマーク
- Authors: Jorge Carrasco Pollo, Ioannis Kapetangeorgis, Joshua Rosenthal, John Hua Yao,
- Abstract要約: 大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示す。
本研究では,Scoreable Games に基づくベンチマークの徹底性について検討する。
本結果は,モデル比較評価における文脈の重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate significant potential in multi-agent negotiation tasks, yet evaluation in this domain remains challenging due to a lack of robust and generalizable benchmarks. Abdelnabi et al. (2024) introduce a negotiation benchmark based on Scoreable Games, with the aim of developing a highly complex and realistic evaluation framework for LLMs. Our work investigates the reproducibility of claims in their benchmark, and provides a deeper understanding of its usability and generalizability. We replicate the original experiments on additional models, and introduce additional metrics to verify negotiation quality and evenness of evaluation. Our findings reveal that while the benchmark is indeed complex, model comparison is ambiguous, raising questions about its objectivity. Furthermore, we identify limitations in the experimental setup, particularly in information leakage detection and thoroughness of the ablation study. By examining and analyzing the behavior of a wider range of models on an extended version of the benchmark, we reveal insights that provide additional context to potential users. Our results highlight the importance of context in model-comparative evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示すが、堅牢で一般化可能なベンチマークが欠如しているため、この分野の評価は依然として困難である。
Abdelnabi et al (2024)は、LLMの高度に複雑で現実的な評価フレームワークを開発することを目的として、スコアブルゲームに基づくベンチマークを導入した。
本研究は,ベンチマークにおけるクレームの再現性について検討し,そのユーザビリティと一般化可能性についてより深く理解する。
提案手法は,追加モデル上での原実験を再現し,検証品質と評価の均一性を検証するための追加指標を導入する。
我々の研究結果によると、ベンチマークは確かに複雑だが、モデルの比較は曖昧であり、その客観性に関する疑問が提起されている。
さらに,実験装置の限界,特に情報漏洩検出とアブレーション研究の完全性について検討した。
ベンチマークの拡張バージョンにおいて、より広い範囲のモデルの振る舞いを調べ、分析することにより、潜在的なユーザに対して追加のコンテキストを提供する洞察を明らかにする。
本結果は,モデル比較評価における文脈の重要性を強調した。
関連論文リスト
- Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。