論文の概要: Evaluating Language Model Agency through Negotiations
- arxiv url: http://arxiv.org/abs/2401.04536v1
- Date: Tue, 9 Jan 2024 13:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:32:57.953991
- Title: Evaluating Language Model Agency through Negotiations
- Title(参考訳): 交渉による言語モデルエージェンシーの評価
- Authors: Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime
Peyrard, Antoine Bosselut, Michal Kosinski, Robert West
- Abstract要約: 言語モデル(LM)は、自律性を高めてタスクを実行するためにますます使われています。
交渉ゲームにおけるレンズによるLM性能の評価とアライメントを提案する。
我々は,様々なネゴシエーションゲームにおいて,公にアクセスできる6つのLMの結果を報告し,セルフプレイとクロスプレイのパフォーマンスを評価した。
- 参考スコア(独自算出の注目度): 41.87206983126212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Companies, organizations, and governments increasingly exploit Language
Models' (LM) remarkable capability to display agent-like behavior. As LMs are
adopted to perform tasks with growing autonomy, there exists an urgent need for
reliable and scalable evaluation benchmarks. Current, predominantly static LM
benchmarks are ill-suited to evaluate such dynamic applications. Thus, we
propose jointly evaluating LM performance and alignment through the lenses of
negotiation games. We argue that this common task better reflects real-world
deployment conditions while offering insights into LMs' decision-making
processes. Crucially, negotiation games allow us to study multi-turn, and
cross-model interactions, modulate complexity, and side-step accidental data
leakage in evaluation. We report results for six publicly accessible LMs from
several major providers on a variety of negotiation games, evaluating both
self-play and cross-play performance. Noteworthy findings include: (i)
open-source models are currently unable to complete these tasks; (ii)
cooperative bargaining games prove challenging; and (iii) the most powerful
models do not always "win".
- Abstract(参考訳): 企業や組織、政府は、エージェントのような振る舞いを示すために言語モデル(LM)の顕著な能力をますます活用している。
LMは自律性を高めてタスクを実行するために採用されているため、信頼性とスケーラブルな評価ベンチマークが緊急に必要となる。
現在、主に静的なLMベンチマークは、そのような動的アプリケーションを評価するのに不適である。
そこで本研究では,交渉ゲームのレンズを用いて,LM性能とアライメントを共同評価する。
我々は、この共通タスクは、LMの意思決定プロセスに関する洞察を提供しながら、現実世界のデプロイメント条件をよりよく反映していると論じる。
重要な点として、交渉ゲームにより、マルチターンおよびクロスモデル相互作用の研究、複雑さの変調、および評価におけるサイドステップの偶発的データ漏洩について研究することができる。
我々は,様々な交渉ゲームにおいて,複数の大手プロバイダから公開されているLMの6つの結果を報告する。
注目すべき発見は
(i) オープンソースモデルは、現在これらのタスクを完了できない。
(二 協力交渉ゲームが困難であること。)
(iii)最も強力なモデルは必ずしも「勝つ」とは限らない。
関連論文リスト
- Ranking Large Language Models without Ground Truth [26.227538370962566]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration [28.299379264080603]
大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、自己正当性のような人間的な問題解決戦略を探求し、単一モデル推論能力の境界を推し進めている。
学術的ピアレビュープロセスをエミュレートするマルチエージェントコラボレーション戦略を導入する。
論文 参考訳(メタデータ) (2023-11-14T13:27:07Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。