Fugu-MT 論文翻訳(概要): Sotopia-RL: Reward Design for Social Intelligence

論文の概要: Sotopia-RL: Reward Design for Social Intelligence

arxiv url: http://arxiv.org/abs/2508.03905v3
Date: Wed, 08 Oct 2025 01:52:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 14:21:18.082351
Title: Sotopia-RL: Reward Design for Social Intelligence
Title（参考訳）: Sotopia-RL:ソーシャルインテリジェンスのためのリワードデザイン
Authors: Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You,
Abstract要約: Sotopia-RLは、粗いエピソードレベルのフィードバックを発話レベル、多次元報酬に洗練する新しいフレームワークである。オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア-RLが最先端の社会目標達成スコアを達成することを示した。
参考スコア（独自算出の注目度）: 52.59432715228559
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social intelligence has become a critical capability for large language models (LLMs), enabling them to engage effectively in real-world social tasks such as collaboration and negotiation. Reinforcement learning (RL) is a natural fit for training socially intelligent agents because it allows models to learn sophisticated strategies directly through social interactions without requiring human annotations. However, there are two unique parts about social intelligence tasks: (1) the quality of individual utterances in social interactions is not strictly related to final success; (2) social interactions require multi-dimensional rubrics for success. Therefore, we argue that it is necessary to design rewards for building utterance-level multi-dimensional reward models to facilitate RL training for social intelligence tasks. To address these challenges, we propose Sotopia-RL, a novel framework that refines coarse episode-level feedback into utterance-level, multi-dimensional rewards. Utterance-level credit assignment attributes outcomes to individual utterances, while multi-dimensional rewards capture the full richness of social interactions and reduce reward hacking. Experiments in Sotopia, an open-ended social learning environment, demonstrate that Sotopia-RL achieves state-of-the-art social goal completion scores (7.17 on Sotopia-hard and 8.31 on Sotopia-full), significantly outperforming existing approaches. Ablation studies confirm the necessity of both utterance-level credit assignment and multi-dimensional reward design for RL training.
Abstract（参考訳）: 社会知性は、大きな言語モデル(LLM)にとって重要な能力となり、コラボレーションや交渉のような現実世界の社会的タスクに効果的に関与することができるようになった。強化学習(Reinforcement Learning、RL)は、人間のアノテーションを必要とせずに、社会的相互作用を通じて高度な戦略を直接学習できるため、社会的にインテリジェントなエージェントの訓練に適している。しかし,ソーシャルインテリジェンスタスクには,(1) 個人発話の質が最終成功と厳密には関係していない,(2) ソーシャルインタラクションは成功のために多次元のルーリックを必要とする,という2つの特徴がある。したがって,ソーシャルインテリジェンスタスクにおけるRL学習を促進するために,発話レベルの多次元報酬モデルを構築するための報酬を設計する必要があると論じる。これらの課題に対処するために,粗いエピソードレベルのフィードバックを発話レベルの多次元報酬に洗練する新しいフレームワークであるSotopia-RLを提案する。発話レベルの信用代入は個々の発話の結果に起因し、多次元報酬は社会的相互作用の豊かさを捉え、報酬のハッキングを減らす。オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア・RLが最先端の社会目標達成スコア(7.17点、ソトピア・フル8.31点)を達成し、既存のアプローチを著しく上回ることを示した。アブレーション研究は、RL訓練における発話レベルクレジット代入と多次元報酬設計の必要性を裏付けるものである。

関連論文リスト

One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence [25.89075578734277]
本稿では,AIのための強化学習フレームワークであるOMAR: One Model, All Rolesを紹介する。 OMARは、単一のモデルですべての参加者を同時にロールプレイし、長期的な目標と複雑な社会的規範を達成することを学べる。訓練されたモデルは、共感、説得、妥協探究といった、きめ細やかな、創発的な社会知性を発達させます。
論文参考訳（メタデータ） (2026-02-03T05:09:49Z)
LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-14T23:57:54Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence [62.21106561772784]
時空間認識型階層型認知強化学習(TimeHC-RL)を導入し,大規模言語モデルの社会的知性を高める。実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。 7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
論文参考訳（メタデータ） (2025-05-30T12:01:06Z)
R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文参考訳（メタデータ） (2025-05-07T05:55:45Z)
Social Skill Training with Large Language Models [65.40795606463101]
人々は紛争解決のような社会的スキルに頼り、効果的にコミュニケーションし、仕事と個人の生活の両方で繁栄する。本稿では,専門分野に進出する上での社会的スキルの障壁を明らかにする。本稿では,大規模言語モデルを用いた総合的なフレームワークによるソーシャルスキルトレーニングのソリューションを提案する。
論文参考訳（メタデータ） (2024-04-05T16:29:58Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文参考訳（メタデータ） (2022-10-24T14:58:58Z)
SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文参考訳（メタデータ） (2021-07-02T10:39:18Z)
PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文参考訳（メタデータ） (2021-03-02T18:44:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。