Fugu-MT 論文翻訳(概要): Evaluating Language Model Agency through Negotiations

論文の概要: Evaluating Language Model Agency through Negotiations

arxiv url: http://arxiv.org/abs/2401.04536v1
Date: Tue, 9 Jan 2024 13:19:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:32:57.953991
Title: Evaluating Language Model Agency through Negotiations
Title（参考訳）: 交渉による言語モデルエージェンシーの評価
Authors: Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime Peyrard, Antoine Bosselut, Michal Kosinski, Robert West
Abstract要約: 言語モデル(LM)は、自律性を高めてタスクを実行するためにますます使われています。交渉ゲームにおけるレンズによるLM性能の評価とアライメントを提案する。我々は,様々なネゴシエーションゲームにおいて,公にアクセスできる6つのLMの結果を報告し,セルフプレイとクロスプレイのパフォーマンスを評価した。
参考スコア（独自算出の注目度）: 41.87206983126212
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Companies, organizations, and governments increasingly exploit Language Models' (LM) remarkable capability to display agent-like behavior. As LMs are adopted to perform tasks with growing autonomy, there exists an urgent need for reliable and scalable evaluation benchmarks. Current, predominantly static LM benchmarks are ill-suited to evaluate such dynamic applications. Thus, we propose jointly evaluating LM performance and alignment through the lenses of negotiation games. We argue that this common task better reflects real-world deployment conditions while offering insights into LMs' decision-making processes. Crucially, negotiation games allow us to study multi-turn, and cross-model interactions, modulate complexity, and side-step accidental data leakage in evaluation. We report results for six publicly accessible LMs from several major providers on a variety of negotiation games, evaluating both self-play and cross-play performance. Noteworthy findings include: (i) open-source models are currently unable to complete these tasks; (ii) cooperative bargaining games prove challenging; and (iii) the most powerful models do not always "win".
Abstract（参考訳）: 企業や組織、政府は、エージェントのような振る舞いを示すために言語モデル(LM)の顕著な能力をますます活用している。 LMは自律性を高めてタスクを実行するために採用されているため、信頼性とスケーラブルな評価ベンチマークが緊急に必要となる。現在、主に静的なLMベンチマークは、そのような動的アプリケーションを評価するのに不適である。そこで本研究では,交渉ゲームのレンズを用いて,LM性能とアライメントを共同評価する。我々は、この共通タスクは、LMの意思決定プロセスに関する洞察を提供しながら、現実世界のデプロイメント条件をよりよく反映していると論じる。重要な点として、交渉ゲームにより、マルチターンおよびクロスモデル相互作用の研究、複雑さの変調、および評価におけるサイドステップの偶発的データ漏洩について研究することができる。我々は,様々な交渉ゲームにおいて,複数の大手プロバイダから公開されているLMの6つの結果を報告する。注目すべき発見は (i) オープンソースモデルは、現在これらのタスクを完了できない。 (二協力交渉ゲームが困難であること。) (iii)最も強力なモデルは必ずしも「勝つ」とは限らない。

関連論文リスト

A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench [18.149327897427234]
2023年から継続的開発が続けられているClembenchについて紹介する。我々は、それが自身のモデル(英語で提供されるベンチマークゲームインスタンスのセットを使用して)のベンチマークにどのように使用できるかを説明する。
論文参考訳（メタデータ） (2025-07-11T11:16:01Z)
Towards Robust Dialogue Breakdown Detection: Addressing Disruptors in Large Language Models with Self-Guided Reasoning [30.13634341221476]
大規模言語モデル(LLM)は、様々なドメインを急速に変更している。本稿では,LLM駆動システムにおける対話分解の検出と緩和の課題について論じる。本稿では,特殊微調整と高度なプロンプト戦略を組み合わせたアプローチを提案する。
論文参考訳（メタデータ） (2025-04-26T07:51:05Z)
Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文参考訳（メタデータ） (2025-02-22T14:28:49Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文参考訳（メタデータ） (2024-05-24T20:32:49Z)
Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文参考訳（メタデータ） (2024-02-21T00:49:43Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文参考訳（メタデータ） (2023-10-20T14:11:04Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文参考訳（メタデータ） (2023-08-19T14:33:40Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。