論文の概要: The Reciprocity Gradient
- arxiv url: http://arxiv.org/abs/2605.08323v1
- Date: Fri, 08 May 2026 16:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.566484
- Title: The Reciprocity Gradient
- Title(参考訳): 相互性グラディエント
- Authors: Yue Lin, Pascal Poupart, Shuhui Zhu, Dan Qiao, Wenhao Li, Yuan Liu, Hongyuan Zha, Baoxiang Wang,
- Abstract要約: コミュニケーションは、戦略的相互作用における相互性と協力を維持するための基本である。
学習エージェントに特有の集中的最適化の難しさとして,影響帰属問題を同定し,定式化する。
これを解決するために、公衆の観察から訓練された相手の政策の個人推定器を通して、報酬勾配を明示的に逆伝搬する相互性勾配を導入する。
- 参考スコア(独自算出の注目度): 52.35929743862925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is fundamental to sustaining reciprocity and cooperation in strategic interactions. We identify and formulate the influence attribution problem as the central optimization difficulty inherent in such dynamics for a learning agent: any action or signal the agent emits reshapes the reputations of many third parties along combinatorially branching paths before feeding back into its own future rewards, forcing the agent to account for all of these indirect channels at once when choosing every action. To address this, we introduce the reciprocity gradient, which explicitly backpropagates reward gradients through private estimators of opponents' policies trained from public observations. The gradient flows through the reputation chain itself analytically, rather than being estimated from sampled returns. It jointly optimizes actions and evaluative signals without intrinsic rewards or reward shaping. Empirically, the method recovers near-optimal context-sensitive policies, while sample-based baselines collapse into constant-output policies.
- Abstract(参考訳): コミュニケーションは、戦略的相互作用における相互性と協力を維持するための基本である。
エージェントが出力するアクションや信号は、組み合わせて分岐する経路に沿って多くのサードパーティの評判に不満を呈し、その後、エージェントはすべてのアクションを選択する際に、これらの間接チャネルを一度に考慮しなければならない。
これを解決するために、公衆の観察から訓練された相手の政策の個人推定器を通して、報酬勾配を明示的に逆伝搬する相互性勾配を導入する。
勾配は、サンプリングされたリターンから推定されるのではなく、評価チェーン自体を解析的に流れる。
アクションと評価シグナルを、本質的な報酬や報酬形成なしに共同で最適化する。
実験的な方法では、サンプルベースのベースラインが一定の出力ポリシーに崩壊する一方で、ほぼ最適のコンテキスト依存ポリシーを回復する。
関連論文リスト
- How RLHF Amplifies Sycophancy [23.213056717401418]
大規模言語モデルは、好みに基づく後訓練後、しばしばサイコファンティックな振る舞いを増大させる。
我々は、アライメントに使用する人間の嗜好データにおいて、学習した報酬に対する最適化とバイアスを因果的に関連付ける明示的な増幅機構を同定する。
本稿では,増幅機構自体を中和する訓練時間介入を提案する。
論文 参考訳(メタデータ) (2026-02-01T03:46:14Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding [2.7282382992043885]
現実のシナリオは、しばしば受信者の信念の形成と意思決定に影響を与える隠された変数を含む。
我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。
このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
論文 参考訳(メタデータ) (2025-04-01T21:50:32Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。