論文の概要: Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game
- arxiv url: http://arxiv.org/abs/2501.14225v1
- Date: Fri, 24 Jan 2025 04:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:05.328077
- Title: Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game
- Title(参考訳): マルチエージェントKTO:言語ゲームにおける大規模言語モデルの戦略的相互作用の強化
- Authors: Rong Ye, Yongxin Zhang, Yikai Zhang, Haoyu Kuang, Zhongyu Wei, Peng Sun,
- Abstract要約: Werewolfは、言語理解をテストするソーシャル推論ゲームである。
マルチエージェントKahneman & Tversky's Optimization (MaKTO) を開発した。
MaKTOは様々なモデルの平均勝利率を61%達成している。
- 参考スコア(独自算出の注目度): 32.791648070823776
- License:
- Abstract: Achieving Artificial General Intelligence (AGI) requires AI agents that can not only make stratigic decisions but also engage in flexible and meaningful communication. Inspired by Wittgenstein's language game theory in Philosophical Investigations, we propose that language agents can learn through in-context interaction rather than traditional multi-stage frameworks that separate decision-making from language expression. Using Werewolf, a social deduction game that tests language understanding, strategic interaction, and adaptability, we develop the Multi-agent Kahneman & Tversky's Optimization (MaKTO). MaKTO engages diverse models in extensive gameplay to generate unpaired desirable and unacceptable responses, then employs KTO to refine the model's decision-making process. In 9-player Werewolf games, MaKTO achieves a 61% average win rate across various models, outperforming GPT-4o and two-stage RL agents by relative improvements of 23.0% and 10.9%, respectively. Notably, MaKTO also demonstrates human-like performance, winning 60% against expert players and showing only 49% detectability in Turing-style blind tests. These results showcase MaKTO's superior decision-making, strategic adaptation, and natural language generation in complex social deduction games.
- Abstract(参考訳): 人工知能(AGI)の達成には、戦略的な決定だけでなく、柔軟で意味のあるコミュニケーションにも関与できるAIエージェントが必要である。
哲学研究におけるウィトゲンシュタインの言語ゲーム理論に触発されて、言語エージェントは、言語表現から意思決定を分離する従来の多段階フレームワークよりも、コンテキスト内相互作用を通じて学習することができることを提案する。
言語理解,戦略的相互作用,適応性をテストするソーシャル推論ゲームであるWerewolfを用いて,マルチエージェントのKahneman & Tversky's Optimization(MaKTO)を開発した。
MaKTOは、望ましくない、受け入れられない応答を生成するために、幅広いゲームプレイにおいて多様なモデルに取り組み、その後、モデルの意思決定プロセスを洗練するためにKTOを使用している。
9-player Werewolf ゲームでは、MaKTO は GPT-4o と 2ステージ RL のエージェントをそれぞれ 23.0% と 10.9% の相対的な改善で61% の平均勝利率を達成した。
特に、MaKTOは人間のようなパフォーマンスを示し、エキスパートプレイヤーに対して60%を勝ち取り、チューリングスタイルのブラインドテストでは49%しか検出できない。
これらの結果は、複雑な社会的推論ゲームにおいて、MaKTOの優れた意思決定、戦略的適応、自然言語生成を示す。
関連論文リスト
- Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization [13.496120603859701]
大規模言語モデル(LLM)ベースのエージェントは、最近、様々な領域で顕著な進歩を見せている。
これらのエージェントを、戦略的意思決定と自由形式の言語相互作用の両方を必要とするWerewolfのような社会的推論ゲームに適用することは、依然として簡単ではない。
本稿では,まず自由形式のテキストを離散的な潜在空間にマッピングすることで,これらの課題に対処する反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T06:19:55Z) - GAMA: Generative Agents for Multi-Agent Autoformalization [3.5083201638203154]
大規模言語モデル(LLM)により強化されたエージェントを用いた対話シナリオの自動形式化を実現するフレームワークを提案する。
エージェントは、インタラクションの自然言語記述を、各ゲームのルールを定義する実行可能な論理プログラムに変換する。
トーナメントシミュレーションは、生成されたゲームルールと戦略の機能をテストする。
論文 参考訳(メタデータ) (2024-12-11T22:37:45Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Steering Language Models with Game-Theoretic Solvers [43.023261136434876]
大規模言語モデル(LLM)によって生成される自然言語対話の空間上で平衡解法が機能するフレームワークを導入する。
具体的には、対話の「ゲーム」におけるプレイヤー、戦略、ペイオフをモデル化することにより、自然言語の相互作用から従来のゲーム理論の記号論理への結合を生成する。
我々は,会議のスケジューリング,果物の取引,討論など,異なる交渉戦略を必要とする3つの領域に注目し,解決者によって指導されたLLMの言語を評価する。
論文 参考訳(メタデータ) (2024-01-24T22:22:00Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - Human Choice Prediction in Language-based Persuasion Games:
Simulation-based Off-Policy Evaluation [24.05034588588407]
本稿では,このようなエージェントの設計における重要な側面について論じる。
人工エージェントを用いた意思決定ゲームを繰り返し行う人間による87Kの意思決定データセットを収集した。
我々のアプローチでは、あるエージェントサブセットと人間のインタラクションに関するモデルをトレーニングして、他のエージェントとのインタラクションにおける決定を予測します。
論文 参考訳(メタデータ) (2023-05-17T16:38:11Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Quality Assurance of Generative Dialog Models in an Evolving
Conversational Agent Used for Swedish Language Practice [59.705062519344]
提案する1つのソリューションは、人中心の対話型言語実践のためのAI対応の会話エージェントである。
仮想面接のために訓練された独自の生成ダイアログモデルの品質保証を目標とした行動研究の成果を報告する。
論文 参考訳(メタデータ) (2022-03-29T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。