Fugu-MT 論文翻訳(概要): Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

論文の概要: Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

arxiv url: http://arxiv.org/abs/2305.10142v1
Date: Wed, 17 May 2023 11:55:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 16:18:29.362108
Title: Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
Title（参考訳）: AIフィードバックによる自己学習と文脈学習による言語モデルネゴシエーションの改善
Authors: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
Abstract要約: 交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
参考スコア（独自算出の注目度）: 97.54519989641388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study whether multiple large language models (LLMs) can autonomously improve each other in a negotiation game by playing, reflecting, and criticizing. We are interested in this question because if LLMs were able to improve each other, it would imply the possibility of creating strong AI agents with minimal human intervention. We ask two LLMs to negotiate with each other, playing the roles of a buyer and a seller, respectively. They aim to reach a deal with the buyer targeting a lower price and the seller a higher one. A third language model, playing the critic, provides feedback to a player to improve the player's negotiation strategies. We let the two agents play multiple rounds, using previous negotiation history and AI feedback as in-context demonstrations to improve the model's negotiation strategy iteratively. We use different LLMs (GPT and Claude) for different roles and use the deal price as the evaluation metric. Our experiments reveal multiple intriguing findings: (1) Only a subset of the language models we consider can self-play and improve the deal price from AI feedback, weaker models either do not understand the game's rules or cannot incorporate AI feedback for further improvement. (2) Models' abilities to learn from the feedback differ when playing different roles. For example, it is harder for Claude-instant to improve as the buyer than as the seller. (3) When unrolling the game to multiple rounds, stronger agents can consistently improve their performance by meaningfully using previous experiences and iterative AI feedback, yet have a higher risk of breaking the deal. We hope our work provides insightful initial explorations of having models autonomously improve each other with game playing and AI feedback.
Abstract（参考訳）: 交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。 LLMが互いに改善できたら、人間の介入を最小限に抑えた強力なAIエージェントを作る可能性が示唆されるからです。我々は2つのLLMにそれぞれ買い手と売り手の役割を演じる交渉を依頼する。彼らは、低い価格と高い価格を目標とする買い手と取引することを目指している。批評家を演じる第3の言語モデルは、プレイヤーの交渉戦略を改善するためにプレイヤーにフィードバックを提供する。我々は、モデルの交渉戦略を反復的に改善するために、過去の交渉履歴とAIフィードバックをコンテキスト内デモとして使用して、2つのエージェントを複数ラウンドでプレイさせる。異なる役割に異なるLLM(GPTとClaude)を使用し、評価指標として取引価格を使用します。実験の結果,(1)aiのフィードバックから自己再生可能な言語モデルのサブセットのみが取引価格を改善し,弱いモデルはゲームのルールを理解していないか,あるいはさらなる改善のためにaiのフィードバックを取り入れられないか,という,複数の興味深い発見が明らかになった。 2) モデルがフィードバックから学ぶ能力は,異なる役割を演じる際に異なる。例えば、Claude-Instantは売り手よりも買い手として改善することが難しい。 (3) ゲームが複数ラウンドに展開されると、より強力なエージェントは、過去の経験と反復的なAIフィードバックを有意義に利用することで、パフォーマンスを継続的に改善できるが、取引を破るリスクが高い。私たちの研究は、モデルをゲームプレイとAIフィードバックで自律的に改善する、洞察に富んだ最初の調査を提供してくれることを願っています。

関連論文リスト

Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。 SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文参考訳（メタデータ） (2025-04-11T14:49:33Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Indirect Dynamic Negotiation in the Nash Demand Game [0.0]
我々は,エージェントが間接交渉を行い,相手のモデルを学習することで交渉を成功させる決定モデルを提案した。我々は,交渉の抽象モデルであるナッシュ・デマンド・ゲーム(Nash demand game)に我々のモデルを適用することで,我々のアプローチを説明する。
論文参考訳（メタデータ） (2024-09-10T14:58:00Z)
LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文参考訳（メタデータ） (2024-08-25T18:47:55Z)
Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method [17.388837360641276]
本稿では,Bargainingタスクを非対称な不完全情報ゲームとして記述する。これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。本稿では,OG-Narratorと呼ばれる新手法を提案する。
論文参考訳（メタデータ） (2024-02-24T13:36:58Z)
How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis [50.15061156253347]
人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。我々は,LLMエージェントの交渉能力を評価し,検証するためのフレキシブルなフレームワークであるNegotiationArenaを開発した。
論文参考訳（メタデータ） (2024-02-08T17:51:48Z)
Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文参考訳（メタデータ） (2024-01-09T13:19:37Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-02T16:55:37Z)
All by Myself: Learning Individualized Competitive Behaviour with a Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-10-02T08:11:07Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。