論文の概要: One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence
- arxiv url: http://arxiv.org/abs/2602.03109v1
- Date: Tue, 03 Feb 2026 05:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.255136
- Title: One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence
- Title(参考訳): 対話型ソーシャルインテリジェンスのためのマルチターン・マルチエージェント型セルフプレイ強化学習の一モデル
- Authors: Bowen Jiang, Taiwei Shi, Ryo Kamoi, Yuan Yuan, Camillo J. Taylor, Longqi Yang, Pei Zhou, Sihao Chen,
- Abstract要約: 本稿では,AIのための強化学習フレームワークであるOMAR: One Model, All Rolesを紹介する。
OMARは、単一のモデルですべての参加者を同時にロールプレイし、長期的な目標と複雑な社会的規範を達成することを学べる。
訓練されたモデルは、共感、説得、妥協探究といった、きめ細やかな、創発的な社会知性を発達させます。
- 参考スコア(独自算出の注目度): 25.89075578734277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces OMAR: One Model, All Roles, a reinforcement learning framework that enables AI to develop social intelligence through multi-turn, multi-agent conversational self-play. Unlike traditional paradigms that rely on static, single-turn optimizations, OMAR allows a single model to role-play all participants in a conversation simultaneously, learning to achieve long-term goals and complex social norms directly from dynamic social interaction. To ensure training stability across long dialogues, we implement a hierarchical advantage estimation that calculates turn-level and token-level advantages. Evaluations in the SOTOPIA social environment and Werewolf strategy games show that our trained models develop fine-grained, emergent social intelligence, such as empathy, persuasion, and compromise seeking, demonstrating the effectiveness of learning collaboration even under competitive scenarios. While we identify practical challenges like reward hacking, our results show that rich social intelligence can emerge without human supervision. We hope this work incentivizes further research on AI social intelligence in group conversations.
- Abstract(参考訳): 本稿では,マルチターン・マルチエージェント対話型セルフプレイによるソーシャルインテリジェンス開発を実現するための強化学習フレームワークであるOMAR: One Model, All Rolesを紹介する。
静的なシングルターン最適化に依存する従来のパラダイムとは異なり、OMARは単一のモデルで会話に参加するすべての参加者を同時にロールプレイし、動的な社会的相互作用から直接長期的な目標と複雑な社会的規範を達成することを学べる。
長い対話におけるトレーニングの安定性を確保するため,ターンレベルとトークンレベルの優位性を計算する階層的優位性推定を実装した。
SOTOPIA社会環境とWerewolf戦略ゲームの評価は、我々の訓練されたモデルは、共感、説得、妥協探索といった、きめ細やかな、創発的な社会知性を発達させ、競争シナリオ下においても協調学習の有効性を実証していることを示している。
報酬のハッキングのような実践的な課題を特定する一方で、私たちの結果は、リッチなソーシャルインテリジェンスが人間の監督なしに出現することを示している。
この研究によって、グループ会話におけるAIソーシャルインテリジェンスに関するさらなる研究が促進されることを願っている。
関連論文リスト
- Sotopia-RL: Reward Design for Social Intelligence [52.59432715228559]
Sotopia-RLは、粗いエピソードレベルのフィードバックを発話レベル、多次元報酬に洗練する新しいフレームワークである。
オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア-RLが最先端の社会目標達成スコアを達成することを示した。
論文 参考訳(メタデータ) (2025-08-05T20:43:42Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。