Fugu-MT 論文翻訳(概要): Elastic Decision Transformer

論文の概要: Elastic Decision Transformer

arxiv url: http://arxiv.org/abs/2307.02484v2
Date: Fri, 7 Jul 2023 01:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 14:36:43.725787
Title: Elastic Decision Transformer
Title（参考訳）: 弾性決定変換器
Authors: Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
Abstract要約: 弾性決定変換器(EDT)は既存の決定変換器(DT)に対する重要な進歩である EDTは、DTで保持される履歴長を調整することで、テスト時間におけるアクション推論中の軌跡縫合を容易にする。大規模な実験は、DTベースのアプローチとQラーニングベースのアプローチの間のパフォーマンスギャップを埋める、EDTの能力を示している。
参考スコア（独自算出の注目度）: 15.440719907904153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
Abstract（参考訳）: 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。ビデオは、https://kristery.github.io/edt/で公開されている。

関連論文リスト

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文参考訳（メタデータ） (2025-02-17T18:57:26Z)
Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
DRDT3: Diffusion-Refined Decision Test-Time Training Model [6.907105812732423]
Decision Transformer (DT) は従来のオフライン強化学習 (RL) に比べて競争力がある。我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-12T04:59:49Z)
Enhancing Decision Transformer with Diffusion-Based Trajectory Branch Generation [29.952637757286073]
決定変換器(DT)は、オフライン強化学習(RL)を教師付きシーケンスモデリングタスクに変換することにより、オフラインデータセットから効果的なポリシーを学習することができる。拡散モデルにより生成された分岐を用いてデータセットの軌道を拡大する拡散ベース軌道分岐生成(BG)を導入する。 BGはD4RLベンチマークで最先端のシーケンスモデリング手法より優れている。
論文参考訳（メタデータ） (2024-11-18T06:44:14Z)
Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。オンラインの意思決定の微調整は驚くほど過小評価されている。 ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-31T16:38:51Z)
Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。 Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文参考訳（メタデータ） (2024-09-12T14:10:22Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning [19.84386060857712]
本稿では、微分軌道最適化をポリシー表現として活用し、深層強化と模倣学習のためのアクションを生成するDiffTORIを提案する。 15のモデルベースRLタスクと35の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTORIはどちらのドメインでも最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-02-08T05:26:40Z)
Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文参考訳（メタデータ） (2024-02-07T08:18:09Z)
Context-Former: Stitching via Latent Conditioned Sequence Modeling [31.250234478757665]
コンテキスト情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入する。実験では、ContextFormerは複数のIL設定で競合的なパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-01-29T06:05:14Z)
Waypoint Transformer: Reinforcement Learning via Supervised Learning with Intermediate Targets [30.044393664203483]
中間目標を統合化してRvS法を強化する新しい手法を提案する。我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2023-06-24T22:25:29Z)
Different Tunes Played with Equal Skill: Exploring a Unified Optimization Subspace for Delta Tuning [95.72622659619445]
デルタチューニング(DET)は、事前学習言語モデル(PLM)を使用するための新しいパラダイムであると考えられている。これまでのところ、異なる設計要素を持つ様々なDETが提案されており、微調整と同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-24T14:57:35Z)
Feasible Low-thrust Trajectory Identification via a Deep Neural Network Classifier [1.5076964620370268]
本研究は、最適化プロセスに先立って、実現可能な低推力移動を正確に識別するディープニューラルネットワーク(DNN)を提案する。 DNN分類器の全体的な精度は97.9%であり、テストアルゴリズムの中では最高の性能である。
論文参考訳（メタデータ） (2022-02-10T11:34:37Z)
Event-Based Feature Tracking in Continuous Time with Sliding Window Optimization [55.11913183006984]
イベントカメラにおける連続時間特徴追跡のための新しい手法を提案する。時空における推定軌道に沿って事象を整列させることによって特徴を追跡する。提案するスライディングウインドウB-スプライン最適化が,より長く,より正確な特徴トラックにつながることを実験的に確認した。
論文参考訳（メタデータ） (2021-07-09T16:41:20Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。