論文の概要: Recovering Hidden Reward in Diffusion-Based Policies
- arxiv url: http://arxiv.org/abs/2605.00623v1
- Date: Fri, 01 May 2026 12:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.951699
- Title: Recovering Hidden Reward in Diffusion-Based Policies
- Title(参考訳): 拡散型政策における隠れリワードの回復
- Authors: Yanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu,
- Abstract要約: EnergyFlowは、逆強化学習を備えた生成アクションモデリングを統合するフレームワークである。
最大エントロピー最適性の下で、スコアマッチングによって学習されたスコア関数は、専門家のソフトQ関数の勾配を回復する。
学習分野を保守的に制限することは仮説の複雑さを減らし、分布外一般化境界を締め付けることを示す。
- 参考スコア(独自算出の注目度): 20.31180123599115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces EnergyFlow, a framework that unifies generative action modeling with inverse reinforcement learning by parameterizing a scalar energy function whose gradient is the denoising field. We establish that under maximum-entropy optimality, the score function learned via denoising score matching recovers the gradient of the expert's soft Q-function, enabling reward extraction without adversarial training. Formally, we prove that constraining the learned field to be conservative reduces hypothesis complexity and tightens out-of-distribution generalization bounds. We further characterize the identifiability of recovered rewards and bound how score estimation errors propagate to action preferences. Empirically, EnergyFlow achieves state-of-the-art imitation performance on various manipulation tasks while providing an effective reward signal for downstream reinforcement learning that outperforms both adversarial IRL methods and likelihood-based alternatives. These results show that the structural constraints required for valid reward extraction simultaneously serve as beneficial inductive biases for policy generalization. The code is available at https://github.com/sotaagi/EnergyFlow.
- Abstract(参考訳): 本稿では,逆強化学習を用いて生成行動モデリングを統一するフレームワークであるEnergyFlowについて紹介する。
最大エントロピー最適性の下で、スコアマッチングを用いて学習したスコア関数は、専門家のソフトQ-関数の勾配を回復し、相手の訓練なしに報酬の抽出を可能にする。
形式的には、学習分野を保守的に制限することは、仮説の複雑さを減らし、分布外一般化境界を締め付けることを証明している。
さらに、回収された報酬の識別可能性や、スコア推定誤差が行動選好にどのように伝播するかを特徴付ける。
実証的には、EnergyFlowは様々な操作タスクにおける最先端の模倣性能を達成し、下流の強化学習に効果的な報奨信号を提供し、敵IRL法と確率に基づく代替法の両方に勝る。
これらの結果は、有効な報酬抽出に必要な構造的制約が、政策一般化の有益な帰納バイアスとして同時に働くことを示している。
コードはhttps://github.com/sotaagi/EnergyFlow.comで入手できる。
関連論文リスト
- Scaling Reasoning Efficiently via Relaxed On-Policy Distillation [49.39199261602195]
REOPOLD(Relaxed On-Policy Distillation)は、標準的なオンライン蒸留の厳密な模倣制約を緩和することで最適化を安定化するフレームワークである。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、および統一的な探索・縮小訓練戦略を通じて、教師の報酬を選択的に活用する。
論文 参考訳(メタデータ) (2026-03-11T16:26:52Z) - Alternating Reinforcement Learning with Contextual Rubric Rewards [2.1172256884504588]
Reinforcement Learning with Rewards (RLRR)は、従来の強化学習を人間のフィードバックから拡張するフレームワークである。
RLRRの既存のアプローチは、固定重み付きスカラー報酬に線形に圧縮されたベクトル報酬に限られる。
本研究は,報酬アグリゲーションの限界を克服するために,報酬付き強化学習(ARL-RR)を提案する。
論文 参考訳(メタデータ) (2026-03-04T04:18:39Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Stochastic Forward-Forward Learning through Representational Dimensionality Compression [14.020257767487323]
本稿では, 2次統計構造を組み込むために, 変動するニューラルレスポンスの有効次元を用いた新しい良性関数次元圧縮を提案する。
本研究は, より生物学的に検証可能な学習アルゴリズムの開発に寄与し, ニューロモルフィックコンピューティングに自然に適合することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T13:19:29Z) - ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards [3.1986315488647588]
クアドロター制御ポリシーは、報酬の正確な勾配を使って高い性能で訓練することができる。
部分的に微分可能な報酬は、訓練性能を低下させるバイアス付き勾配伝播をもたらす。
本稿では,BPTTのトレーニング効率を維持しつつ,勾配バイアスを緩和する手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T14:18:22Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。