Fugu-MT 論文翻訳(概要): Solving Continual Offline Reinforcement Learning with Decision Transformer

論文の概要: Solving Continual Offline Reinforcement Learning with Decision Transformer

arxiv url: http://arxiv.org/abs/2401.08478v1
Date: Tue, 16 Jan 2024 16:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 19:00:03.653020
Title: Solving Continual Offline Reinforcement Learning with Decision Transformer
Title（参考訳）: 決定変換器を用いた連続オフライン強化学習の解法
Authors: Kaixin Huang, Li Shen, Chen Zhao, Chun Yuan, Dacheng Tao
Abstract要約: 連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
参考スコア（独自算出の注目度）: 84.32004665413395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuous offline reinforcement learning (CORL) combines continuous and offline reinforcement learning, enabling agents to learn multiple tasks from static datasets without forgetting prior tasks. However, CORL faces challenges in balancing stability and plasticity. Existing methods, employing Actor-Critic structures and experience replay (ER), suffer from distribution shifts, low efficiency, and weak knowledge-sharing. We aim to investigate whether Decision Transformer (DT), another offline RL paradigm, can serve as a more suitable offline continuous learner to address these issues. We first compare AC-based offline algorithms with DT in the CORL framework. DT offers advantages in learning efficiency, distribution shift mitigation, and zero-shot generalization but exacerbates the forgetting problem during supervised parameter updates. We introduce multi-head DT (MH-DT) and low-rank adaptation DT (LoRA-DT) to mitigate DT's forgetting problem. MH-DT stores task-specific knowledge using multiple heads, facilitating knowledge sharing with common components. It employs distillation and selective rehearsal to enhance current task learning when a replay buffer is available. In buffer-unavailable scenarios, LoRA-DT merges less influential weights and fine-tunes DT's decisive MLP layer to adapt to the current task. Extensive experiments on MoJuCo and Meta-World benchmarks demonstrate that our methods outperform SOTA CORL baselines and showcase enhanced learning capabilities and superior memory efficiency.
Abstract（参考訳）: continuous offline reinforcement learning (corl)は、連続およびオフラインの強化学習を組み合わせることで、エージェントは、事前のタスクを忘れずに、静的データセットから複数のタスクを学習できる。しかし、corlは安定性と可塑性のバランスが困難である。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を採用した既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は、この問題を解決するために、別のオフラインRLパラダイムであるDecision Transformer(DT)がより適切なオフライン連続学習者として機能するかどうかを検討することを目的とする。最初に、corlフレームワークでacベースのオフラインアルゴリズムとdtを比較した。 DTは学習効率、分散シフト緩和、ゼロショット一般化の利点を提供するが、教師付きパラメータ更新時の忘れ問題を悪化させる。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。 MH-DTは複数のヘッドを使ってタスク固有の知識を格納し、共通コンポーネントとの知識共有を容易にする。蒸留と選択的リハーサルを使用して、リプレイバッファが利用可能な場合の現在のタスク学習を強化する。バッファなしのシナリオでは、LoRA-DTは、現在のタスクに適応するために、影響の少ない重みと微調整のMDP層をマージする。 MoJuCoとMeta-Worldベンチマークの大規模な実験により,本手法はSOTA CORLのベースラインを上回り,学習能力の向上とメモリ効率の向上を実証した。

関連論文リスト

Mixtures of SubExperts for Large Language Continual Learning [6.425296129700846]
タスクの連続ストリームに大規模言語モデルを適用することは、決定的だが挑戦的な取り組みである。 1組のPEFTパラメータを新しいタスクに再利用すると、しばしば以前の知識を壊滅的に忘れてしまう。本稿では,最小限の忘れ込みと効率のよい拡張性を実現するための,新しい連続学習フレームワークであるTextitMixtures of SubExperts (MoSEs)を提案する。
論文参考訳（メタデータ） (2025-11-09T05:44:45Z)
BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。 RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文参考訳（メタデータ） (2025-10-30T11:15:23Z)
Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。 LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文参考訳（メタデータ） (2025-09-17T13:05:08Z)
Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer [29.029659384955206]
決定変換器(DT)は、オフラインデータセットを活用して、さまざまな領域にわたる印象的な結果を達成する、現代的な強化学習において重要な役割を果たす。本稿では,反現実的推論に触発された新しいフレームワークであるCRDTを提案する。
論文参考訳（メタデータ） (2025-05-14T03:45:16Z)
Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-02-07T14:57:17Z)
N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文参考訳（メタデータ） (2024-11-04T10:31:03Z)
Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-04T08:21:47Z)
Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文参考訳（メタデータ） (2024-08-02T17:25:34Z)
Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。 C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-14T17:40:40Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling [34.547551367941246]
センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。本稿では,ロバスト決定変換器 (RDT) を提案する。
論文参考訳（メタデータ） (2024-07-05T06:34:32Z)
In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought [13.034968416139826]
In-context Decision Transformer (IDT) を提案する。 IDTは人間の意思決定の効率的な階層構造にインスパイアされている。 IDTは、現在のコンテキスト内RLメソッドよりも長い水平タスクの最先端を実現する。
論文参考訳（メタデータ） (2024-05-31T08:38:25Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Generalized Decision Transformer for Offline Hindsight Information Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文参考訳（メタデータ） (2021-11-19T18:56:13Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。