Fugu-MT 論文翻訳(概要): SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

論文の概要: SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

arxiv url: http://arxiv.org/abs/2604.18982v1
Date: Tue, 21 Apr 2026 02:08:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.573601
Title: SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution
Title（参考訳）: SAVOIR:Shapley-based Reward Attributionによるソーシャルサボワーフェール学習
Authors: Xiachong Feng, Yi Jiang, Xiaocheng Feng, Deyi Yin, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Yuxuan Gu, Chonghan Qin, Bing Qin, Lingpeng Kong,
Abstract要約: 複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。協調ゲーム理論に基づく新しい原理的枠組みであるSAVOIRを提案する。
参考スコア（独自算出の注目度）: 82.31558282651811
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.
Abstract（参考訳）: 複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。このようなエージェントを強化学習を通じて訓練するには、個別の発話がマルチターン対話の結果にどのように貢献するかを決定する、クレジット代入問題を解く必要がある。既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。本稿では,協調ゲーム理論に基づく新しい原理的フレームワークであるSAVOIR(ShApley Value fOr SocIal RL)を提案する。提案手法は2つの相補的原理を組み合わせる: 予測ユーティリティーは、レトロスペクティブの帰属から予測的評価への評価をシフトし、発話の戦略的ポテンシャルを捉えて将来の軌道を有利にすること; シェープリー値は、効率、対称性、限界性の公理的保証を伴う公正な信用分布を保証する。 SOTOPIAベンチマークの実験では、SAVOIRは、GPT-4oやClaude-3.5-Sonnetといったプロプライエタリモデルよりも高い7Bモデルマッチングや、すべての評価設定において、新しい最先端性能を実現している。特に、大きな推論モデルでさえ一貫して性能が劣り、社会的知性は分析的推論とは異なる質的に異なる能力を必要とすることを示唆している。

関連論文リスト

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models [45.119381322968735]
良く設計された報酬信号は強化学習(RL)に不可欠である本モデルは,多種多様なデータセットを対象としたインタラクション品質評価の最先端性能を実現する。
論文参考訳（メタデータ） (2026-04-16T12:03:50Z)
Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。 MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文参考訳（メタデータ） (2026-04-13T15:18:51Z)
CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文参考訳（メタデータ） (2025-08-12T16:49:18Z)
Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0]
大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。 LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文参考訳（メタデータ） (2025-06-14T20:14:02Z)
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文参考訳（メタデータ） (2025-05-30T14:34:57Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。