Fugu-MT 論文翻訳(概要): Should We Ever Prefer Decision Transformer for Offline Reinforcement Learning?

論文の概要: Should We Ever Prefer Decision Transformer for Offline Reinforcement Learning?

arxiv url: http://arxiv.org/abs/2507.10174v1
Date: Mon, 14 Jul 2025 11:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 18:48:24.769996
Title: Should We Ever Prefer Decision Transformer for Offline Reinforcement Learning?
Title（参考訳）: オフライン強化学習のための決定変換器を優先すべきか?
Authors: Yumi Omori, Zixuan Dong, Keith Ross,
Abstract要約: スパース・リワード環境におけるFBC(Filted Behavior Cloning)は,DT(Decision Transformer)に比べて優れた性能を示すことを示す。その結果、DTはスパース・リワード環境には好ましくないことが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, extensive work has explored the application of the Transformer architecture to reinforcement learning problems. Among these, Decision Transformer (DT) has gained particular attention in the context of offline reinforcement learning due to its ability to frame return-conditioned policy learning as a sequence modeling task. Most recently, Bhargava et al. (2024) provided a systematic comparison of DT with more conventional MLP-based offline RL algorithms, including Behavior Cloning (BC) and Conservative Q-Learning (CQL), and claimed that DT exhibits superior performance in sparse-reward and low-quality data settings. In this paper, through experimentation on robotic manipulation tasks (Robomimic) and locomotion benchmarks (D4RL), we show that MLP-based Filtered Behavior Cloning (FBC) achieves competitive or superior performance compared to DT in sparse-reward environments. FBC simply filters out low-performing trajectories from the dataset and then performs ordinary behavior cloning on the filtered dataset. FBC is not only very straightforward, but it also requires less training data and is computationally more efficient. The results therefore suggest that DT is not preferable for sparse-reward environments. From prior work, arguably, DT is also not preferable for dense-reward environments. Thus, we pose the question: Is DT ever preferable?
Abstract（参考訳）: 近年,Transformer アーキテクチャの強化学習への応用について広範な研究が進められている。これらのうち、決定変換器(DT)は、シーケンスモデリングタスクとして返却条件付きポリシー学習をフレーム化できることから、オフライン強化学習の文脈において特に注目されている。最近では、Bhargava et al (2024) は、DTと従来のMLPベースのオフラインRLアルゴリズム(振舞いクローン(BC)や保守的Qラーニング(CQL)など)を体系的に比較した。本稿では,ロボット操作タスク (ロボミミック) と移動ベンチマーク (D4RL) の実験を通じて, スパース・リワード環境におけるDTと比較して, MLPベースのフィルタ行動クローニング (FBC) が競争力や優れた性能を発揮することを示す。 FBCは、データセットから低パフォーマンスなトラジェクトリをフィルタリングし、フィルターされたデータセット上で通常の振る舞いクローンを実行する。 FBCは非常に単純であるだけでなく、トレーニングデータも少なく、計算効率も向上している。その結果、DTはスパース・リワード環境には好ましくないことが示唆された。従来の研究から、DTは密度の高い逆向き環境でも好ましくはない。 DTはより望ましいものなのでしょうか?

関連論文リスト

DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文参考訳（メタデータ） (2024-10-30T06:28:09Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Vanilla Gradient Descent for Oblique Decision Trees [7.236325471627686]
ニューラルネットワーク(NN)としての(ハード,斜め)DTの符号化法を提案する。 DTSemNetを用いて学習した斜めDTは、最先端技術を用いて学習した同様の大きさの斜めDTよりも正確であることを示す実験である。また、DTSemNetは、物理入力による強化学習(RL)設定において、NNポリシーと同じくらい効率的にDTポリシーを学習できることを実験的に実証した。
論文参考訳（メタデータ） (2024-08-17T08:18:40Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
When should we prefer Decision Transformers for Offline Reinforcement Learning? [29.107029606830015]
オフラインRLのための3つの一般的なアルゴリズムは、保守的Q-Learning(CQL)、振舞いクローン(BC)、決定変換器(DT)である。本稿では,これらのアルゴリズムの性能を,一般的なD4RLとロブミミシティのベンチマークで検証することによって実証的に検討する。 DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
論文参考訳（メタデータ） (2023-05-23T22:19:14Z)
Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。 LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。 LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文参考訳（メタデータ） (2023-02-26T10:39:38Z)
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。 DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。 DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文参考訳（メタデータ） (2022-09-08T18:26:39Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Enhancing Transformers with Gradient Boosted Decision Trees for NLI Fine-Tuning [7.906608953906889]
ニューラルネットワークによる余分な計算を行なわずに性能を向上させるために、微調整中に計算された機能にGBDTヘッドを装着するFreeGBDTを導入する。強力なベースラインモデルを用いて,複数のNLIデータセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2021-05-08T22:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。