論文の概要: A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19281v1
- Date: Sun, 25 May 2025 19:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.028435
- Title: A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning
- Title(参考訳): 影響のスナップショット:オンライン強化学習のためのローカルデータ属性フレームワーク
- Authors: Yuzheng Hu, Fan Wu, Haotian Ye, David Forsyth, James Zou, Nan Jiang, Jiaqi W. Ma, Han Zhao,
- Abstract要約: オンラインRLトレーニングのためのアルゴリズム,反復的影響に基づくフィルタリング(IIF)を提案する。
IIFはサンプルの複雑さを減らし、トレーニングをスピードアップし、より高いリターンを達成する。
これらの結果は、オンラインRLの解釈可能性、効率、有効性を向上させる。
- 参考スコア(独自算出の注目度): 37.62558445850573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reinforcement learning (RL) excels in complex, safety-critical domains, yet it faces challenges such as sample inefficiency, training instability, and a lack of interpretability. Data attribution offers a principled way to trace model behavior back to individual training samples. However, in online RL, each training sample not only drives policy updates but also influences future data collection, violating the fixed dataset assumption in existing attribution methods. In this paper, we initiate the study of data attribution for online RL, focusing on the widely used Proximal Policy Optimization (PPO) algorithm. We start by establishing a local attribution framework, interpreting model checkpoints with respect to the records in the recent training buffer. We design two target functions, capturing agent action and cumulative return respectively, and measure each record's contribution through gradient similarity between its training loss and these targets. We demonstrate the power of this framework through three concrete applications: diagnosis of learning, temporal analysis of behavior formation, and targeted intervention during training. Leveraging this framework, we further propose an algorithm, iterative influence-based filtering (IIF), for online RL training that iteratively performs experience filtering to refine policy updates. Across standard RL benchmarks (classic control, navigation, locomotion) to RLHF for large language models, IIF reduces sample complexity, speeds up training, and achieves higher returns. Overall, these results advance interpretability, efficiency, and effectiveness of online RL.
- Abstract(参考訳): オンライン強化学習(RL)は、複雑な安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、解釈可能性の欠如といった課題に直面している。
データ属性は、モデルの振る舞いを個々のトレーニングサンプルに遡る、原則化された方法を提供する。
しかし、オンラインRLでは、各トレーニングサンプルがポリシー更新を駆動するだけでなく、将来のデータ収集にも影響を与え、既存の属性メソッドにおける固定データセットの仮定に違反する。
本稿では,オンラインRLにおけるデータ属性の研究を開始し,広く利用されているPPOアルゴリズムに着目した。
まず、ローカルな属性フレームワークを確立し、最近のトレーニングバッファのレコードに関するモデルチェックポイントを解釈する。
エージェントアクションと累積リターンの2つの目標関数を設計し,トレーニング損失とこれらの目標との勾配類似性を通じて各レコードの寄与度を測定した。
本研究は,学習の診断,行動形成の時間的分析,訓練中の標的介入の3つの具体的応用を通して,この枠組みの力を実証する。
このフレームワークを活用することで、オンラインRLトレーニングにおいて、ポリシー更新を洗練するための経験的フィルタリングを反復的に行うアルゴリズム、反復的影響ベースのフィルタリング(IIF)をさらに提案する。
一般的なRLベンチマーク(古典的な制御、ナビゲーション、移動)を大言語モデルでRLHFに変換するため、IIFはサンプルの複雑さを減らし、トレーニングを高速化し、より高いリターンを達成する。
全体として、これらの結果はオンラインRLの解釈可能性、効率、有効性を向上させる。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。
本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。
我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文 参考訳(メタデータ) (2025-02-26T16:03:06Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。