論文の概要: From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.12815v1
- Date: Thu, 17 Jul 2025 06:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.360199
- Title: From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning
- Title(参考訳): ノベルティから模倣へ:オフライン強化学習のための自己蒸留リワード
- Authors: Gaurav Chaudhary, Laxmidhar Behera,
- Abstract要約: オフライン強化学習(RL)は、エージェントと環境の相互作用を余分に必要とせずに、静的データセットから効果的なポリシーを学ぶことを目的としている。
オフラインRLのための新たな報酬アノテーションフレームワークであるReLOADを提案する。
提案手法はランダムネットワーク蒸留(RND)に適応し,専門家による実験から本質的な報酬を生成する。
- 参考スコア(独自算出の注目度): 7.559920170287638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (RL) aims to learn effective policies from a static dataset without requiring further agent-environment interactions. However, its practical adoption is often hindered by the need for explicit reward annotations, which can be costly to engineer or difficult to obtain retrospectively. To address this, we propose ReLOAD (Reinforcement Learning with Offline Reward Annotation via Distillation), a novel reward annotation framework for offline RL. Unlike existing methods that depend on complex alignment procedures, our approach adapts Random Network Distillation (RND) to generate intrinsic rewards from expert demonstrations using a simple yet effective embedding discrepancy measure. First, we train a predictor network to mimic a fixed target network's embeddings based on expert state transitions. Later, the prediction error between these networks serves as a reward signal for each transition in the static dataset. This mechanism provides a structured reward signal without requiring handcrafted reward annotations. We provide a formal theoretical construct that offers insights into how RND prediction errors effectively serve as intrinsic rewards by distinguishing expert-like transitions. Experiments on the D4RL benchmark demonstrate that ReLOAD enables robust offline policy learning and achieves performance competitive with traditional reward-annotated methods.
- Abstract(参考訳): オフライン強化学習(RL)は、エージェントと環境の相互作用を余分に必要とせずに、静的データセットから効果的なポリシーを学ぶことを目的としている。
しかし、その実践的採用は、しばしば明示的な報酬アノテーションの必要性によって妨げられている。
そこで我々は,オフラインRLのための新たな報酬アノテーションフレームワークであるReLOAD(Reinforcement Learning with Offline Reward Annotation via Distillation)を提案する。
複雑なアライメント手順に依存する既存の手法とは異なり、我々の手法はランダムネットワーク蒸留(RND)に適応し、単純で効果的な埋め込み誤差尺度を用いて専門家のデモンストレーションから本質的な報酬を生成する。
まず、専門家の状態遷移に基づいて、固定ターゲットネットワークの埋め込みを模倣する予測ネットワークを訓練する。
後に、これらのネットワーク間の予測誤差は、静的データセットの各遷移に対する報酬信号として機能する。
このメカニズムは手作りの報酬アノテーションを必要とせずに構造化された報酬信号を提供する。
我々は、RND予測エラーが、専門家のような遷移を区別することによって、内在的な報酬として効果的に機能するかを洞察する公式な理論的構成を提供する。
D4RLベンチマークの実験では、ReLOADは堅牢なオフラインポリシー学習を可能にし、従来の報酬アノテート手法と競合するパフォーマンスを実現する。
関連論文リスト
- Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるために,新しい記号回帰手法を提案する。
我々の研究は、データ固有の式生成器の学習に焦点を当てた、一般的なDSRフレームワークと一致しています。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Adversarial Training Reduces Information and Improves Transferability [81.59364510580738]
近年の研究では, 頑健性に加えて, 可逆性などの望ましい特性が期待できることが示されている。
本稿では,新たなタスクへの線形転送性の向上を図り,表現の伝達可能性とソースタスクの精度の間に新たなトレードオフが生じていることを示す。
論文 参考訳(メタデータ) (2020-07-22T08:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。