論文の概要: Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback
- arxiv url: http://arxiv.org/abs/2305.10142v1
- Date: Wed, 17 May 2023 11:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:18:29.362108
- Title: Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback
- Title(参考訳): AIフィードバックによる自己学習と文脈学習による言語モデルネゴシエーションの改善
- Authors: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
- Abstract要約: 交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
- 参考スコア(独自算出の注目度): 97.54519989641388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether multiple large language models (LLMs) can autonomously
improve each other in a negotiation game by playing, reflecting, and
criticizing. We are interested in this question because if LLMs were able to
improve each other, it would imply the possibility of creating strong AI agents
with minimal human intervention. We ask two LLMs to negotiate with each other,
playing the roles of a buyer and a seller, respectively. They aim to reach a
deal with the buyer targeting a lower price and the seller a higher one. A
third language model, playing the critic, provides feedback to a player to
improve the player's negotiation strategies. We let the two agents play
multiple rounds, using previous negotiation history and AI feedback as
in-context demonstrations to improve the model's negotiation strategy
iteratively. We use different LLMs (GPT and Claude) for different roles and use
the deal price as the evaluation metric. Our experiments reveal multiple
intriguing findings: (1) Only a subset of the language models we consider can
self-play and improve the deal price from AI feedback, weaker models either do
not understand the game's rules or cannot incorporate AI feedback for further
improvement. (2) Models' abilities to learn from the feedback differ when
playing different roles. For example, it is harder for Claude-instant to
improve as the buyer than as the seller. (3) When unrolling the game to
multiple rounds, stronger agents can consistently improve their performance by
meaningfully using previous experiences and iterative AI feedback, yet have a
higher risk of breaking the deal. We hope our work provides insightful initial
explorations of having models autonomously improve each other with game playing
and AI feedback.
- Abstract(参考訳): 交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
LLMが互いに改善できたら、人間の介入を最小限に抑えた強力なAIエージェントを作る可能性が示唆されるからです。
我々は2つのLLMにそれぞれ買い手と売り手の役割を演じる交渉を依頼する。
彼らは、低い価格と高い価格を目標とする買い手と取引することを目指している。
批評家を演じる第3の言語モデルは、プレイヤーの交渉戦略を改善するためにプレイヤーにフィードバックを提供する。
我々は、モデルの交渉戦略を反復的に改善するために、過去の交渉履歴とAIフィードバックをコンテキスト内デモとして使用して、2つのエージェントを複数ラウンドでプレイさせる。
異なる役割に異なるLLM(GPTとClaude)を使用し、評価指標として取引価格を使用します。
実験の結果,(1)aiのフィードバックから自己再生可能な言語モデルのサブセットのみが取引価格を改善し,弱いモデルはゲームのルールを理解していないか,あるいはさらなる改善のためにaiのフィードバックを取り入れられないか,という,複数の興味深い発見が明らかになった。
2) モデルがフィードバックから学ぶ能力は,異なる役割を演じる際に異なる。
例えば、Claude-Instantは売り手よりも買い手として改善することが難しい。
(3) ゲームが複数ラウンドに展開されると、より強力なエージェントは、過去の経験と反復的なAIフィードバックを有意義に利用することで、パフォーマンスを継続的に改善できるが、取引を破るリスクが高い。
私たちの研究は、モデルをゲームプレイとAIフィードバックで自律的に改善する、洞察に富んだ最初の調査を提供してくれることを願っています。
関連論文リスト
- Measuring Bargaining Abilities of LLMs: A Benchmark and A
Buyer-Enhancement Method [18.260813141278447]
本稿では,Bargainingタスクを非対称な不完全情報ゲームとして記述する。
これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。
本稿では,OG-Narratorと呼ばれる新手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:36:58Z) - How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis [50.15061156253347]
人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。
大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。
我々は,LLMエージェントの交渉能力を評価し,検証するためのフレキシブルなフレームワークであるNegotiationArenaを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:51:48Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation
Dialogues [53.92137694844765]
我々は、2つの大きな言語モデル(LLM)が各会話における2つの交渉者の役割を果たすことによって、現実世界の交渉をシミュレートする。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換えるための修復剤として機能する。
本手法が政策学習と結びついていることを示し,その効果を3つの異なるトピックにわたる交渉において実証するための実証的証拠を豊富に提供する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z) - Deep Reinforcement Learning for FlipIt Security Game [2.0624765454705654]
本稿では,エージェントが対戦者の異なるクラスに適応し,最適な対ストラテジーを学習する深層学習モデルについて述べる。
FlipItは、プレイヤー、攻撃者、ディフェンダーの双方が共有リソースの所有権を競う2人プレイのセキュリティゲームです。
我々のモデルは、Qラーニングと組み合わせたディープニューラルネットワークであり、リソースの所有時間の最大化のために訓練されている。
論文 参考訳(メタデータ) (2020-02-28T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。