論文の概要: TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.25898v1
- Date: Tue, 28 Apr 2026 17:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.980855
- Title: TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning
- Title(参考訳): TSN親和性:連続オフライン強化学習における類似性駆動型パラメータ再利用
- Authors: Dominik Żurek, Kamil Faber, Marcin Pietron, Paweł Gajewski, Roberto Corizzo,
- Abstract要約: 連続オフライン強化学習(CORL)は、以前に学習したタスクのパフォーマンスを維持しながら、時間とともに収集されたデータセットから一連のタスクを学習することを目的としている。
本稿では,TinySubNetworks と Decision Transformer に基づく新しい CORL 手法である TSN-Affinity を提案する。
我々は,Atariゲームに基づくベンチマークのアプローチと,Franka Emika Pandaロボットアームによる操作タスクのシミュレーションを評価する。
- 参考スコア(独自算出の注目度): 5.680044533158534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual offline reinforcement learning (CORL) aims to learn a sequence of tasks from datasets collected over time while preserving performance on previously learned tasks. This setting corresponds to domains where new tasks arise over time, but adapting the model in live environment interactions is expensive, risky, or impossible. However, CORL inherits the dual difficulty of offline reinforcement learning and adapting while preventing catastrophic forgetting. Replay-based continual learning approaches remain a strong baseline but incur memory overhead and suffer from a distribution mismatch between replayed samples and newly learned policies. At the same time, architectural continual learning methods have shown strong potential in supervised learning but remain underexplored in CORL. In this work, we propose TSN-Affinity, a novel CORL method based on TinySubNetworks and Decision Transformer. The method enables task-specific parameterization and controlled knowledge sharing through a RL-aware reuse strategy that routes tasks according to action compatibility and latent similarity. We evaluate the approach on benchmarks based on Atari games and simulations of manipulation tasks with the Franka Emika Panda robotic arm, covering both discrete and continuous control. Results show strong retention from sparse SubNetworks, with routing further improving multi-task performance. Our findings suggest that similarity-guided architectural reuse is a strong and viable alternative to replay-based strategies in a CORL setting. Our code is available at: https://github.com/anonymized-for-submission123/tsn-affinity.
- Abstract(参考訳): 連続オフライン強化学習(CORL)は、以前に学習したタスクのパフォーマンスを維持しながら、時間とともに収集されたデータセットから一連のタスクを学習することを目的としている。
この設定は、時間とともに新しいタスクが発生するドメインに対応しますが、ライブ環境のインタラクションにおけるモデルの適用は、高価でリスクが高く、あるいは不可能です。
しかし、CORLは、破滅的な忘れ込みを防止しつつ、オフライン強化学習と適応の二重困難を継承する。
リプレイベースの連続学習アプローチは、強力なベースラインのままだが、メモリオーバーヘッドが生じ、リプレイされたサンプルと新しく学習されたポリシー間の分散ミスマッチに悩まされる。
同時に、アーキテクチャ連続学習手法は教師あり学習において強い可能性を示しているが、CORLでは未探索のままである。
本稿では,TinySubNetworks と Decision Transformer に基づく新しい CORL 手法である TSN-Affinity を提案する。
タスク固有のパラメータ化と制御された知識共有を、アクション互換性と潜在類似性に応じてタスクをルーティングするRL対応の再利用戦略により実現する。
我々は,AtariゲームとFranka Emika Pandaロボットアームによる操作タスクのシミュレーションに基づくベンチマークのアプローチを評価し,離散制御と連続制御の両方を網羅した。
結果は、マルチタスク性能をさらに向上させるとともに、疎いSubNetworksからの強い保持力を示している。
以上の結果から,類似性誘導型アーキテクチャ再利用は,CORL環境下でのリプレイ型戦略の強力な代替手段である可能性が示唆された。
私たちのコードは、https://github.com/anonymized-for-submission123/tsn-affinityで利用可能です。
関連論文リスト
- Trust Region Continual Learning as an Implicit Meta-Learner [3.705371747297478]
我々は,生産的リプレイとフィッシャー計量信頼領域制約を併用した,エフェトラスト領域連続学習のハイブリッド視点について検討する。
局所近似では,MAMLスタイルの解釈を単一の暗黙的な内部ステップで行うことができた。
これにより、連続学習における創発的なメタラーニング特性が得られる。
論文 参考訳(メタデータ) (2026-02-02T18:19:16Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
近年のビヘイビア・クローン(BC)の進歩により、ロボットに新しいタスクを教えるのが容易になった。
しかし、教育の容易さは信頼性の低いパフォーマンスを犠牲にしている。
我々は,BCの教えやすさと長期的能力を維持しながら信頼性を克服する,シンプルで効果的な方法であるResiPを考案した。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。