論文の概要: Elastic Decision Transformer
- arxiv url: http://arxiv.org/abs/2307.02484v2
- Date: Fri, 7 Jul 2023 01:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:36:43.725787
- Title: Elastic Decision Transformer
- Title(参考訳): 弾性決定変換器
- Authors: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
- Abstract要約: 弾性決定変換器(EDT)は既存の決定変換器(DT)に対する重要な進歩である
EDTは、DTで保持される履歴長を調整することで、テスト時間におけるアクション推論中の軌跡縫合を容易にする。
大規模な実験は、DTベースのアプローチとQラーニングベースのアプローチの間のパフォーマンスギャップを埋める、EDTの能力を示している。
- 参考スコア(独自算出の注目度): 15.440719907904153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Elastic Decision Transformer (EDT), a significant
advancement over the existing Decision Transformer (DT) and its variants.
Although DT purports to generate an optimal trajectory, empirical evidence
suggests it struggles with trajectory stitching, a process involving the
generation of an optimal or near-optimal trajectory from the best parts of a
set of sub-optimal trajectories. The proposed EDT differentiates itself by
facilitating trajectory stitching during action inference at test time,
achieved by adjusting the history length maintained in DT. Further, the EDT
optimizes the trajectory by retaining a longer history when the previous
trajectory is optimal and a shorter one when it is sub-optimal, enabling it to
"stitch" with a more optimal trajectory. Extensive experimentation demonstrates
EDT's ability to bridge the performance gap between DT-based and Q
Learning-based approaches. In particular, the EDT outperforms Q Learning-based
methods in a multi-task regime on the D4RL locomotion benchmark and Atari
games. Videos are available at: https://kristery.github.io/edt/
- Abstract(参考訳): 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。
dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。
提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。
さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。
広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。
特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。
ビデオは、https://kristery.github.io/edt/で公開されている。
関連論文リスト
- Enhancing Decision Transformer with Diffusion-Based Trajectory Branch Generation [29.952637757286073]
決定変換器(DT)は、オフライン強化学習(RL)を教師付きシーケンスモデリングタスクに変換することにより、オフラインデータセットから効果的なポリシーを学習することができる。
拡散モデルにより生成された分岐を用いてデータセットの軌道を拡大する拡散ベース軌道分岐生成(BG)を導入する。
BGはD4RLベンチマークで最先端のシーケンスモデリング手法より優れている。
論文 参考訳(メタデータ) (2024-11-18T06:44:14Z) - Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Context-Former: Stitching via Latent Conditioned Sequence Modeling [31.250234478757665]
コンテキスト情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入する。
実験では、ContextFormerは複数のIL設定で競合的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-01-29T06:05:14Z) - Waypoint Transformer: Reinforcement Learning via Supervised Learning
with Intermediate Targets [30.044393664203483]
中間目標を統合化してRvS法を強化する新しい手法を提案する。
我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。
その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2023-06-24T22:25:29Z) - Different Tunes Played with Equal Skill: Exploring a Unified
Optimization Subspace for Delta Tuning [95.72622659619445]
デルタチューニング(DET)は、事前学習言語モデル(PLM)を使用するための新しいパラダイムであると考えられている。
これまでのところ、異なる設計要素を持つ様々なDETが提案されており、微調整と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-24T14:57:35Z) - Feasible Low-thrust Trajectory Identification via a Deep Neural Network
Classifier [1.5076964620370268]
本研究は、最適化プロセスに先立って、実現可能な低推力移動を正確に識別するディープニューラルネットワーク(DNN)を提案する。
DNN分類器の全体的な精度は97.9%であり、テストアルゴリズムの中では最高の性能である。
論文 参考訳(メタデータ) (2022-02-10T11:34:37Z) - Event-Based Feature Tracking in Continuous Time with Sliding Window
Optimization [55.11913183006984]
イベントカメラにおける連続時間特徴追跡のための新しい手法を提案する。
時空における推定軌道に沿って事象を整列させることによって特徴を追跡する。
提案するスライディングウインドウB-スプライン最適化が,より長く,より正確な特徴トラックにつながることを実験的に確認した。
論文 参考訳(メタデータ) (2021-07-09T16:41:20Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。