論文の概要: A Comparison Between Decision Transformers and Traditional Offline Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2511.16475v1
- Date: Thu, 20 Nov 2025 15:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.702915
- Title: A Comparison Between Decision Transformers and Traditional Offline Reinforcement Learning Algorithms
- Title(参考訳): 決定変換器と従来のオフライン強化学習アルゴリズムの比較
- Authors: Ali Murtaza Caunhye, Asad Jeewa,
- Abstract要約: 本稿では,従来のオフラインRLアルゴリズムに対するDTの性能を,密度・疎度な報酬設定で評価する。
その結果,DTは報酬密度の変動に対して他の方法に比べて感度が低いことがわかった。
IQLのような従来のバリューベースのメソッドでは、高品質なデータによる高密度な報酬設定のパフォーマンスが向上し、CQLでは、さまざまなデータ品質のバランスの取れたパフォーマンスが提供されていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Offline Reinforcement Learning (RL) aims to derive effective policies from pre-collected datasets without active environment interaction. While traditional offline RL algorithms like Conservative Q-Learning (CQL) and Implicit Q-Learning (IQL) have shown promise, they often face challenges in balancing exploration and exploitation, especially in environments with varying reward densities. The recently proposed Decision Transformer (DT) approach, which reframes offline RL as a sequence modelling problem, has demonstrated impressive results across various benchmarks. This paper presents a comparative study evaluating the performance of DT against traditional offline RL algorithms in dense and sparse reward settings for the ANT continous control environment. Our research investigates how these algorithms perform when faced with different reward structures, examining their ability to learn effective policies and generalize across varying levels of feedback. Through empirical analysis in the ANT environment, we found that DTs showed less sensitivity to varying reward density compared to other methods and particularly excelled with medium-expert datasets in sparse reward scenarios. In contrast, traditional value-based methods like IQL showed improved performance in dense reward settings with high-quality data, while CQL offered balanced performance across different data qualities. Additionally, DTs exhibited lower variance in performance but required significantly more computational resources compared to traditional approaches. These findings suggest that sequence modelling approaches may be more suitable for scenarios with uncertain reward structures or mixed-quality data, while value-based methods remain competitive in settings with dense rewards and high-quality demonstrations.
- Abstract(参考訳): オフライン強化学習(RL)の分野は、アクティブな環境相互作用のない事前コンパイルされたデータセットから効果的なポリシーを導出することを目的としている。
保守的なQ-Learning(CQL)やImplicit Q-Learning(IQL)といった従来のオフラインRLアルゴリズムは有望だが、特に報酬密度の異なる環境では、探索とエクスプロイトのバランスをとるという課題に直面していることが多い。
最近提案されたDecision Transformer (DT)アプローチは、オフラインRLをシーケンスモデリング問題として再設計し、様々なベンチマークで印象的な結果を示した。
本稿では, ANT連続制御環境において, 従来のオフラインRLアルゴリズムに対するDTの性能を, 密度および疎度な報酬設定で評価する。
本研究は,これらのアルゴリズムが,報酬構造が異なる場合にどのように機能するかを調査し,効果的なポリシを学習し,さまざまなレベルのフィードバックを一般化する能力について検討する。
ANT環境における経験的分析により,DTは,他の手法と比較して,様々な報酬密度に対する感度が低く,特にスパース報酬シナリオにおける中熟練データセットに優れていた。
対照的に、IQLのような従来のバリューベースのメソッドでは、高品質なデータで高密度な報酬設定のパフォーマンスが向上し、CQLでは、さまざまなデータ品質でバランスの取れたパフォーマンスが提供された。
さらに、DTは性能のばらつきが低いが、従来の手法に比べて計算資源がかなり必要であった。
これらの結果は、列モデリングアプローチが不確実な報酬構造や混合品質データを持つシナリオに適しているのに対し、価値に基づく手法は、高品位報酬や高品質な実演を伴う設定において競争力を保つことを示唆している。
関連論文リスト
- MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - RAD: Retrieval High-quality Demonstrations to Enhance Decision-making [23.136426643341462]
オフライン強化学習(RL)により、エージェントは固定データセットからポリシーを学ぶことができる。
RLはデータセットの空間性や、準最適軌道と専門家軌道の重なり合いの欠如によって制限されることが多い。
本稿では,非パラメトリック検索と拡散に基づく生成モデルを組み合わせた意思決定のための検索高量子デモ(RAD)を提案する。
論文 参考訳(メタデータ) (2025-07-21T08:08:18Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。