論文の概要: Social-R1: Towards Human-like Social Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2603.09249v1
- Date: Tue, 10 Mar 2026 06:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.099113
- Title: Social-R1: Towards Human-like Social Reasoning in LLMs
- Title(参考訳): ソーシャルR1:LLMにおけるヒューマンライクなソーシャル推論を目指して
- Authors: Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng,
- Abstract要約: 我々は、人間のような社会知性を育むためには、ショートカットソリューションに抵抗する挑戦的なケースでのトレーニングが必要であると論じる。
モデル推論と人間の認知を多次元報酬で整合させる強化学習フレームワークSocial-R1を提案する。
- 参考スコア(独自算出の注目度): 74.32494331695837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models demonstrate remarkable capabilities across numerous domains, social intelligence - the capacity to perceive social cues, infer mental states, and generate appropriate responses - remains a critical challenge, particularly for enabling effective human-AI collaboration and developing AI that truly serves human needs. Current models often rely on superficial patterns rather than genuine social reasoning. We argue that cultivating human-like social intelligence requires training with challenging cases that resist shortcut solutions. To this end, we introduce ToMBench-Hard, an adversarial benchmark designed to provide hard training examples for social reasoning. Building on this, we propose Social-R1, a reinforcement learning framework that aligns model reasoning with human cognition through multi-dimensional rewards. Unlike outcome-based RL, Social-R1 supervises the entire reasoning process, enforcing structural alignment, logical integrity, and information density. Results show that our approach enables a 4B parameter model to surpass much larger counterparts and generalize robustly across eight diverse benchmarks. These findings demonstrate that challenging training cases with trajectory-level alignment offer a path toward efficient and reliable social intelligence.
- Abstract(参考訳): 大きな言語モデルは、多くのドメインで顕著な能力を示しているが、社会的知性 — 社会的手がかりを知覚し、メンタルステートを推測し、適切なレスポンスを生成する能力 — は、特に人間とAIの効果的なコラボレーションの実現と、本当に人間のニーズを満たすAIの開発において重要な課題である。
現在のモデルは、真の社会的推論よりも表面的なパターンに依存していることが多い。
我々は、人間のような社会知性を育むためには、ショートカットソリューションに抵抗する挑戦的なケースでのトレーニングが必要であると論じる。
この目的のために、社会推論のためのハードトレーニング例を提供するために設計された逆ベンチマークであるToMBench-Hardを紹介する。
そこで本研究では,モデル推論と人間の認識を多次元の報酬によって整合させる強化学習フレームワークSocial-R1を提案する。
結果に基づくRLとは異なり、Social-R1は、構造的整合性、論理的整合性、情報密度を強制して、推論プロセス全体を監督する。
その結果,提案手法により,より大きなパラメータを超越した4Bパラメータモデルを実現し,8つのベンチマークで頑健に一般化できることが示唆された。
これらの結果から,軌道レベルの整合性を有する困難な訓練症例は,効率的かつ信頼性の高い社会知性への道筋を示すことが示唆された。
関連論文リスト
- One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence [25.89075578734277]
本稿では,AIのための強化学習フレームワークであるOMAR: One Model, All Rolesを紹介する。
OMARは、単一のモデルですべての参加者を同時にロールプレイし、長期的な目標と複雑な社会的規範を達成することを学べる。
訓練されたモデルは、共感、説得、妥協探究といった、きめ細やかな、創発的な社会知性を発達させます。
論文 参考訳(メタデータ) (2026-02-03T05:09:49Z) - MARO: Learning Stronger Reasoning from Social Interaction [7.77506109184819]
マルチエージェント・リワード最適化(Multi-Agent Reward Optimization、MARO)は、大規模言語モデルがより強力な推論能力を得ることを可能にする手法である。
実験の結果,MAROは社会的推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-01-18T09:10:08Z) - Sotopia-RL: Reward Design for Social Intelligence [52.59432715228559]
Sotopia-RLは、粗いエピソードレベルのフィードバックを発話レベル、多次元報酬に洗練する新しいフレームワークである。
オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア-RLが最先端の社会目標達成スコアを達成することを示した。
論文 参考訳(メタデータ) (2025-08-05T20:43:42Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。