論文の概要: Elastic Decision Transformer
- arxiv url: http://arxiv.org/abs/2307.02484v5
- Date: Thu, 12 Oct 2023 04:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:41:37.841309
- Title: Elastic Decision Transformer
- Title(参考訳): 弾性決定変換器
- Authors: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
- Abstract要約: 弾性決定変換器(EDT)は既存の決定変換器(DT)に対する重要な進歩である
EDTは、DTで保持される履歴長を調整することで、テスト時間におけるアクション推論中の軌跡縫合を容易にする。
大規模な実験は、DTベースのアプローチとQラーニングベースのアプローチの間のパフォーマンスギャップを埋める、EDTの能力を示している。
- 参考スコア(独自算出の注目度): 18.085153645646646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Elastic Decision Transformer (EDT), a significant
advancement over the existing Decision Transformer (DT) and its variants.
Although DT purports to generate an optimal trajectory, empirical evidence
suggests it struggles with trajectory stitching, a process involving the
generation of an optimal or near-optimal trajectory from the best parts of a
set of sub-optimal trajectories. The proposed EDT differentiates itself by
facilitating trajectory stitching during action inference at test time,
achieved by adjusting the history length maintained in DT. Further, the EDT
optimizes the trajectory by retaining a longer history when the previous
trajectory is optimal and a shorter one when it is sub-optimal, enabling it to
"stitch" with a more optimal trajectory. Extensive experimentation demonstrates
EDT's ability to bridge the performance gap between DT-based and Q
Learning-based approaches. In particular, the EDT outperforms Q Learning-based
methods in a multi-task regime on the D4RL locomotion benchmark and Atari
games. Videos are available at: https://kristery.github.io/edt/
- Abstract(参考訳): 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。
dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。
提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。
さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。
広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。
特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。
ビデオは、https://kristery.github.io/edt/で公開されている。
関連論文リスト
- Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - DRDT3: Diffusion-Refined Decision Test-Time Training Model [6.907105812732423]
Decision Transformer (DT) は従来のオフライン強化学習 (RL) に比べて競争力がある。
我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-12T04:59:49Z) - Enhancing Decision Transformer with Diffusion-Based Trajectory Branch Generation [29.952637757286073]
決定変換器(DT)は、オフライン強化学習(RL)を教師付きシーケンスモデリングタスクに変換することにより、オフラインデータセットから効果的なポリシーを学習することができる。
拡散モデルにより生成された分岐を用いてデータセットの軌道を拡大する拡散ベース軌道分岐生成(BG)を導入する。
BGはD4RLベンチマークで最先端のシーケンスモデリング手法より優れている。
論文 参考訳(メタデータ) (2024-11-18T06:44:14Z) - Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Context-Former: Stitching via Latent Conditioned Sequence Modeling [31.250234478757665]
コンテキスト情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入する。
実験では、ContextFormerは複数のIL設定で競合的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-01-29T06:05:14Z) - Different Tunes Played with Equal Skill: Exploring a Unified
Optimization Subspace for Delta Tuning [95.72622659619445]
デルタチューニング(DET)は、事前学習言語モデル(PLM)を使用するための新しいパラダイムであると考えられている。
これまでのところ、異なる設計要素を持つ様々なDETが提案されており、微調整と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-24T14:57:35Z) - Feasible Low-thrust Trajectory Identification via a Deep Neural Network
Classifier [1.5076964620370268]
本研究は、最適化プロセスに先立って、実現可能な低推力移動を正確に識別するディープニューラルネットワーク(DNN)を提案する。
DNN分類器の全体的な精度は97.9%であり、テストアルゴリズムの中では最高の性能である。
論文 参考訳(メタデータ) (2022-02-10T11:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。