論文の概要: Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.06060v1
- Date: Sun, 09 Feb 2025 22:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:08.914068
- Title: Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いたソーシャル・ドダクションのための学習言語モデル
- Authors: Bidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh,
- Abstract要約: 自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。
我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
- 参考スコア(独自算出の注目度): 31.196865401472664
- License:
- Abstract: Communicating in natural language is a powerful tool in multi-agent settings, as it enables independent agents to share information in partially observable settings and allows zero-shot coordination with humans. However, most prior works are limited as they either rely on training with large amounts of human demonstrations or lack the ability to generate natural and useful communication strategies. In this work, we train language models to have productive discussions about their environment in natural language without any human demonstrations. We decompose the communication problem into listening and speaking. Our key idea is to leverage the agent's goal to predict useful information about the world as a dense reward signal that guides communication. Specifically, we improve a model's listening skills by training them to predict information about the environment based on discussions, and we simultaneously improve a model's speaking skills with multi-agent reinforcement learning by rewarding messages based on their influence on other agents. To investigate the role and necessity of communication in complex social settings, we study an embodied social deduction game based on Among Us, where the key question to answer is the identity of an adversarial imposter. We analyze emergent behaviors due to our technique, such as accusing suspects and providing evidence, and find that it enables strong discussions, doubling the win rates compared to standard RL. We release our code and models at https://socialdeductionllm.github.io/
- Abstract(参考訳): 自然言語でのコミュニケーションは、独立エージェントが部分的に観察可能な設定で情報を共有でき、人間とのゼロショット調整を可能にするため、マルチエージェント設定において強力なツールである。
しかしながら、以前の作品のほとんどは、人間のデモを大量に行う訓練に頼るか、自然で有用なコミュニケーション戦略を生成する能力が欠如しているため、制限されている。
本研究では,人間の実演なしに自然言語の環境について生産的な議論を行うために,言語モデルを訓練する。
我々はコミュニケーション問題を聞き書きに分解する。
私たちのキーとなるアイデアは、エージェントの目標を利用して、コミュニケーションを導く高密度報酬信号として、世界の有用な情報を予測することです。
具体的には,モデルを学習して,議論に基づく環境情報を予測することにより,モデルの聴取能力を向上させるとともに,他のエージェントに対する影響に基づくメッセージの報奨によって,マルチエージェント強化学習によるモデルの話し方を改善する。
複雑な社会環境におけるコミュニケーションの役割と必要性を検討するために,我々は,対人的詐欺師のアイデンティティを問う,対人的社会的推論ゲームについて考察した。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、それが強い議論を可能にし、標準のRLに比べて勝利率を2倍にすることを発見した。
コードとモデルはhttps://socialdeductionllm.github.io/で公開しています。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Learning and communication pressures in neural networks: Lessons from emergent communication [5.371337604556311]
ニューラルエージェントの言語行動と人間とのミスマッチが解決された3症例について検討した。
我々は、コミュニケーションの成功、生産努力、学習可能性、その他の心理・社会言語学的要因といった、言語学習と台頭のための重要なプレッシャーを識別する。
論文 参考訳(メタデータ) (2024-03-21T14:33:34Z) - Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。
直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文 参考訳(メタデータ) (2020-10-10T02:09:19Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。