論文の概要: DRDT3: Diffusion-Refined Decision Test-Time Training Model
- arxiv url: http://arxiv.org/abs/2501.06718v1
- Date: Sun, 12 Jan 2025 04:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:08.234201
- Title: DRDT3: Diffusion-Refined Decision Test-Time Training Model
- Title(参考訳): DRDT3:拡散精算試験時間訓練モデル
- Authors: Xingshuai Huang, Di Wu, Benoit Boulet,
- Abstract要約: Decision Transformer (DT) は従来のオフライン強化学習 (RL) に比べて競争力がある。
我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.907105812732423
- License:
- Abstract: Decision Transformer (DT), a trajectory modeling method, has shown competitive performance compared to traditional offline reinforcement learning (RL) approaches on various classic control tasks. However, it struggles to learn optimal policies from suboptimal, reward-labeled trajectories. In this study, we explore the use of conditional generative modeling to facilitate trajectory stitching given its high-quality data generation ability. Additionally, recent advancements in Recurrent Neural Networks (RNNs) have shown their linear complexity and competitive sequence modeling performance over Transformers. We leverage the Test-Time Training (TTT) layer, an RNN that updates hidden states during testing, to model trajectories in the form of DT. We introduce a unified framework, called Diffusion-Refined Decision TTT (DRDT3), to achieve performance beyond DT models. Specifically, we propose the Decision TTT (DT3) module, which harnesses the sequence modeling strengths of both self-attention and the TTT layer to capture recent contextual information and make coarse action predictions. We further integrate DT3 with the diffusion model using a unified optimization objective. With experiments on multiple tasks of Gym and AntMaze in the D4RL benchmark, our DT3 model without diffusion refinement demonstrates improved performance over standard DT, while DRDT3 further achieves superior results compared to state-of-the-art conventional offline RL and DT-based methods.
- Abstract(参考訳): トラジェクトリ・モデリング手法であるDecision Transformer (DT) は、従来のオフライン強化学習(RL)による様々な古典的制御タスクと比較して、競争力のある性能を示している。
しかし、最適、報酬ラベル付き軌跡から最適な政策を学ぶのに苦労している。
本研究では,高品質なデータ生成能力を有するトラジェクトリー縫合を容易にする条件付き生成モデルについて検討する。
さらに、最近のリカレントニューラルネットワーク(RNN)の進歩は、トランスフォーマーよりも線形複雑で競合的なシーケンスモデリング性能を示している。
テスト中に隠れた状態を更新するRNNであるTTT(Test-Time Training)レイヤを利用して、DTの形式で軌跡をモデル化します。
我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
具体的には、自己注意層とTT層の両方のシーケンスモデリング強度を利用して、最近のコンテキスト情報をキャプチャし、粗い動作予測を行うDecision TTT(DT3)モジュールを提案する。
さらに、統一最適化目標を用いて、DT3を拡散モデルと統合する。
D4RLベンチマークにおけるGymとAntMazeの複数のタスクの実験により、拡散改善のないDT3モデルは標準DTよりも改善された性能を示し、DRDT3は最先端のオフラインRLおよびDTベースの手法よりも優れた結果を得る。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。
DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文 参考訳(メタデータ) (2024-07-22T13:27:51Z) - Context-Former: Stitching via Latent Conditioned Sequence Modeling [31.250234478757665]
コンテキスト情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入する。
実験では、ContextFormerは複数のIL設定で競合的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-01-29T06:05:14Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Elastic Decision Transformer [18.085153645646646]
弾性決定変換器(EDT)は既存の決定変換器(DT)に対する重要な進歩である
EDTは、DTで保持される履歴長を調整することで、テスト時間におけるアクション推論中の軌跡縫合を容易にする。
大規模な実験は、DTベースのアプローチとQラーニングベースのアプローチの間のパフォーマンスギャップを埋める、EDTの能力を示している。
論文 参考訳(メタデータ) (2023-07-05T17:58:21Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Generating Synthetic Training Data for Deep Learning-Based UAV
Trajectory Prediction [11.241614693184323]
本稿では,無人航空機車(UAV)の合成軌道データを生成する手法を提案する。
実世界のUAV追跡データセットにおいて,RNNに基づく予測モデルが従来の参照モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T13:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。