Fugu-MT 論文翻訳(概要): Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning

論文の概要: Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.08062v1
Date: Thu, 12 Sep 2024 14:10:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 16:17:53.654638
Title: Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のためのQ値正規化決定変換器
Authors: Teng Yan, Zhendong Ruan, Yaobang Cai, Yu Han, Wenxian Li, Yang Zhang,
Abstract要約: Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。 Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
参考スコア（独自算出の注目度）: 5.398202201395825
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As a data-driven paradigm, offline reinforcement learning (Offline RL) has been formulated as sequence modeling, where the Decision Transformer (DT) has demonstrated exceptional capabilities. Unlike previous reinforcement learning methods that fit value functions or compute policy gradients, DT adjusts the autoregressive model based on the expected returns, past states, and actions, using a causally masked Transformer to output the optimal action. However, due to the inconsistency between the sampled returns within a single trajectory and the optimal returns across multiple trajectories, it is challenging to set an expected return to output the optimal action and stitch together suboptimal trajectories. Decision ConvFormer (DC) is easier to understand in the context of modeling RL trajectories within a Markov Decision Process compared to DT. We propose the Q-value Regularized Decision ConvFormer (QDC), which combines the understanding of RL trajectories by DC and incorporates a term that maximizes action values using dynamic programming methods during training. This ensures that the expected returns of the sampled actions are consistent with the optimal returns. QDC achieves excellent performance on the D4RL benchmark, outperforming or approaching the optimal level in all tested environments. It particularly demonstrates outstanding competitiveness in trajectory stitching capability.
Abstract（参考訳）: データ駆動型パラダイムとして、オフライン強化学習(Offline RL)はシーケンスモデリングとして定式化され、Decision Transformer(DT)は例外的な機能を示した。値関数や計算ポリシー勾配に適合する従来の強化学習方法とは異なり、DTは期待されるリターン、過去の状態、アクションに基づいて自己回帰モデルを調整し、因果マスクしたTransformerを使用して最適なアクションを出力する。しかし, サンプル値と最適値との整合性から, 最適値の設定は困難であり, 最適値の出力と最適値の縫合は困難である。 Decision ConvFormer (DC) は、DTと比較してマルコフ決定プロセス内のRL軌道をモデル化する文脈で理解しやすい。本稿では,Q-value Regularized Decision ConvFormer (QDC)を提案する。このQ-value Regularized ConvFormerは,DCによるRLトラジェクトリの理解と,トレーニング中の動的プログラミング手法を用いて動作値の最大化を行う。これにより、サンプリングされたアクションの期待されたリターンが最適なリターンと一致することを保証します。 QDCはD4RLベンチマークで優れたパフォーマンスを達成し、全てのテスト環境で最適なレベルに到達している。特に軌道縫合能力の卓越した競争力を示す。

関連論文リスト

DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。 DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文参考訳（メタデータ） (2024-12-12T09:35:47Z)
Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文参考訳（メタデータ） (2024-10-30T20:46:26Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer) 決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-21T10:29:17Z)
Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。 DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文参考訳（メタデータ） (2023-11-01T03:32:13Z)
Optimal Sequential Decision-Making in Geosteering: A Reinforcement Learning Approach [0.0]
ジオステアリングと呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択や情報収集に影響を与える。本研究では,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network(DQN)手法を用いる。これまでに2つの合成ジオステアリングシナリオに対して,RLは準最適ADPに匹敵する高品質な結果が得られることを示した。
論文参考訳（メタデータ） (2023-10-07T10:49:30Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文参考訳（メタデータ） (2023-06-08T13:03:53Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。 DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。 DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文参考訳（メタデータ） (2022-09-08T18:26:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。