論文の概要: MARO: Learning Stronger Reasoning from Social Interaction
- arxiv url: http://arxiv.org/abs/2601.12323v1
- Date: Sun, 18 Jan 2026 09:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.573786
- Title: MARO: Learning Stronger Reasoning from Social Interaction
- Title(参考訳): MARO: 社会的相互作用からより強い推論を学ぶ
- Authors: Yin Cai, Zhouhong Gu, Juntao Zhang, Ping Chen,
- Abstract要約: マルチエージェント・リワード最適化(Multi-Agent Reward Optimization、MARO)は、大規模言語モデルがより強力な推論能力を得ることを可能にする手法である。
実験の結果,MAROは社会的推論能力を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 7.77506109184819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans face countless scenarios that require reasoning and judgment in daily life. However, existing large language model training methods primarily allow models to learn from existing textual content or solve predetermined problems, lacking experience in real scenarios involving interaction, negotiation, and competition with others. To address this, this paper proposes Multi-Agent Reward Optimization (MARO), a method that enables large language models (LLMs) to acquire stronger reasoning abilities by learning and practicing in multi-agent social environments. Specifically, MARO first addresses the sparse learning signal problem by decomposing final success or failure outcomes into each specific behavior during the interaction process; second, it handles the uneven role distribution problem by balancing the training sample weights of different roles; finally, it addresses environmental instability issues by directly evaluating the utility of each behavior. Experimental results demonstrate that MARO not only achieves significant improvements in social reasoning capabilities, but also that the abilities acquired through social simulation learning can effectively transfer to other tasks such as mathematical reasoning and instruction following. This reveals the tremendous potential of multi-agent social learning in enhancing the general reasoning capabilities of LLMs.
- Abstract(参考訳): 人間は日常生活における推論と判断を必要とする無数のシナリオに直面します。
しかし、既存の大規模言語モデルトレーニング手法では、モデルが既存のテキストコンテンツから学習したり、所定の問題を解決したりすることが可能であり、相互作用、交渉、競合を含む実際のシナリオにおける経験が欠如している。
そこで本研究では,大規模言語モデル(LLM)がマルチエージェント社会環境で学習し,実践することにより,より強力な推論能力を得ることができる手法であるマルチエージェント・リワード最適化(MARO)を提案する。
特に、MAROは、まず、相互作用プロセス中の各特定の行動に最終成功または失敗結果を分解してスパース学習信号問題に対処し、次に、異なる役割のトレーニングサンプル重量のバランスをとることにより、不均一な役割分布問題に対処し、最後に、各行動の有用性を直接評価することで環境不安定性問題に対処する。
実験結果から,MAROは社会的推論能力の大幅な向上を達成できるだけでなく,社会シミュレーション学習によって得られた能力が,数学的推論や後続指導といった他のタスクに効果的に移行できることが示唆された。
このことは、LLMの一般的な推論能力を高める上で、マルチエージェント社会学習の膨大な可能性を明らかにしている。
関連論文リスト
- How Far Can LLMs Emulate Human Behavior?: A Strategic Analysis via the Buy-and-Sell Negotiation Game [0.8353024005684598]
大規模言語モデル(LLM)の人間の感情的・行動的模倣と戦略的意思決定能力を定量的に評価する手法を提案する。
具体的には、複数のLLMに異なるペルソナを割り当て、バイヤーとセラーの交渉を行い、勝利率、取引価格、SHAP値などの結果を包括的に分析する。
実験の結果,既存のベンチマークスコアが高いモデルでは,全体の交渉性能が向上することが示された。
論文 参考訳(メタデータ) (2025-11-22T09:07:29Z) - Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。