論文の概要: Can We Optimize Deep RL Policy Weights as Trajectory Modeling?
- arxiv url: http://arxiv.org/abs/2503.04074v1
- Date: Thu, 06 Mar 2025 04:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:57.339140
- Title: Can We Optimize Deep RL Policy Weights as Trajectory Modeling?
- Title(参考訳): 軌道モデルとして深部RL政策重量を最適化できるか?
- Authors: Hongyao Tang,
- Abstract要約: 我々は、歴史的政策のネットワーク重みの軌跡に代表される、深いRLにおける政策学習経路に焦点を当てる。
本稿では,政策ネットワークの重み付けを自己回帰的に処理するTIPL(Transformer as Implicit Policy Learner)を提案する。
- 参考スコア(独自算出の注目度): 6.8359421718501805
- License:
- Abstract: Learning the optimal policy from a random network initialization is the theme of deep Reinforcement Learning (RL). As the scale of DRL training increases, treating DRL policy network weights as a new data modality and exploring the potential becomes appealing and possible. In this work, we focus on the policy learning path in deep RL, represented by the trajectory of network weights of historical policies, which reflects the evolvement of the policy learning process. Taking the idea of trajectory modeling with Transformer, we propose Transformer as Implicit Policy Learner (TIPL), which processes policy network weights in an autoregressive manner. We collect the policy learning path data by running independent RL training trials, with which we then train our TIPL model. In the experiments, we demonstrate that TIPL is able to fit the implicit dynamics of policy learning and perform the optimization of policy network by inference.
- Abstract(参考訳): ランダムネットワークの初期化から最適ポリシーを学ぶことは、深層強化学習(RL)のテーマである。
DRLトレーニングの規模が大きくなるにつれて、DRLポリシーネットワークの重み付けを新たなデータモダリティとして扱い、可能性を探究することが魅力的になり、可能になった。
本研究では,政策学習プロセスの進展を反映した歴史的政策のネットワーク重みの軌跡に代表される,深層RLにおける政策学習経路に着目した。
本稿では,Transformerを用いたトラジェクトリ・モデリングのアイデアを取り入れ,自己回帰的手法でポリシ・ネットワークの重みを処理するTIPL(Inmplicit Policy Learner)を提案する。
我々は、独立したRLトレーニング試験を実施してポリシー学習パスデータを収集し、TIPLモデルをトレーニングする。
実験では、TIPLがポリシー学習の暗黙のダイナミクスに適合し、推論によってポリシーネットワークの最適化を行うことを示す。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。