論文の概要: Sotopia-RL: Reward Design for Social Intelligence
- arxiv url: http://arxiv.org/abs/2508.03905v1
- Date: Tue, 05 Aug 2025 20:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.44091
- Title: Sotopia-RL: Reward Design for Social Intelligence
- Title(参考訳): Sotopia-RL:ソーシャルインテリジェンスのためのリワードデザイン
- Authors: Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、社会的に知的なエージェントの訓練に適している。
社会的相互作用には、RLトレーニングの障壁となる2つの重要な特徴がある。
粗いエピソードレベルのフィードバックを発話レベルの多次元報酬に緩和する新しいフレームワークであるSotopia-RLを提案する。
- 参考スコア(独自算出の注目度): 35.251196539353536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social intelligence has become a critical capability for large language models (LLMs), enabling them to engage effectively in real-world social tasks such as accommodation, persuasion, collaboration, and negotiation. Reinforcement learning (RL) is a natural fit for training socially intelligent agents because it allows models to learn sophisticated strategies directly through social interactions. However, social interactions have two key characteristics that set barriers for RL training: (1) partial observability, where utterances have indirect and delayed effects that complicate credit assignment, and (2) multi-dimensionality, where behaviors such as rapport-building or knowledge-seeking contribute indirectly to goal achievement. These characteristics make Markov decision process (MDP)-based RL with single-dimensional episode-level rewards inefficient and unstable. To address these challenges, we propose Sotopia-RL, a novel framework that refines coarse episode-level feedback into utterance-level, multi-dimensional rewards. Utterance-level credit assignment mitigates partial observability by attributing outcomes to individual utterances, while multi-dimensional rewards capture the full richness of social interactions and reduce reward hacking. Experiments in Sotopia, an open-ended social learning environment, demonstrate that Sotopia-RL achieves state-of-the-art social goal completion scores (7.17 on Sotopia-hard and 8.31 on Sotopia-full), significantly outperforming existing approaches. Ablation studies confirm the necessity of both utterance-level credit assignment and multi-dimensional reward design for RL training. Our implementation is publicly available at: https://github.com/sotopia-lab/sotopia-rl.
- Abstract(参考訳): 社会知性は、大規模言語モデル(LLM)にとって重要な能力となり、宿泊、説得、協力、交渉といった現実の社会的タスクに効果的に関与することができるようになった。
強化学習(Reinforcement Learning、RL)は、モデルが社会的相互作用を通じて直接高度な戦略を学習できるため、社会的にインテリジェントなエージェントの訓練に適している。
しかし、社会的相互作用はRLトレーニングの障壁となる2つの重要な特徴を持っている。(1) 発話が間接的および遅延的な影響でクレジット割り当てを複雑にする部分的可観測性、(2) ラプポート構築や知識探索といった行動がゴール達成に間接的に寄与する多次元性である。
これらの特徴により、マルコフ決定過程(MDP)に基づくRLは、1次元のエピソードレベルの報酬が非効率で不安定である。
これらの課題に対処するために,粗いエピソードレベルのフィードバックを発話レベルの多次元報酬に洗練する新しいフレームワークであるSotopia-RLを提案する。
発話レベルのクレジット割り当ては、個々の発話に結果をもたらすことによって部分的可観測性を緩和する一方、多次元報酬は、社会的相互作用の完全な豊かさを捉え、報酬のハッキングを減らす。
オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア・RLが最先端の社会目標達成スコア(7.17点、ソトピア・フル8.31点)を達成し、既存のアプローチを著しく上回ることを示した。
アブレーション研究は、RL訓練における発話レベルクレジット代入と多次元報酬設計の必要性を裏付けるものである。
私たちの実装は、https://github.com/sotopia-lab/sotopia-rl.comで公開されています。
関連論文リスト
- LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。
私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。
以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-14T23:57:54Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence [62.21106561772784]
時空間認識型階層型認知強化学習(TimeHC-RL)を導入し,大規模言語モデルの社会的知性を高める。
実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。
7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2025-05-30T12:01:06Z) - R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。
我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文 参考訳(メタデータ) (2025-05-07T05:55:45Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。