論文の概要: MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23770v1
- Date: Fri, 27 Feb 2026 07:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.30678
- Title: MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning
- Title(参考訳): MAGE:オフライン強化学習のためのマルチスケール自動回帰生成
- Authors: Chenxing Lin, Xinhui Gao, Haipeng Zhang, Xinran Li, Haitao Wang, Songzhu Mei, Chenglu Wen, Weiquan Liu, Siqi Shen, Cheng Wang,
- Abstract要約: マルチスケール自動回帰GEnerationに基づくオフラインRL法であるMAGEを提案する。
MAGEは条件付きマルチスケールオートエンコーダを組み込んで階層的軌道表現を学習する。
実験の結果,MAGEはマルチスケールの軌道モデリングと条件付き誘導をうまく統合できることがわかった。
- 参考スコア(独自算出の注目度): 42.779100789823055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have gained significant traction in offline reinforcement learning (RL) due to their ability to model complex trajectory distributions. However, existing generation-based approaches still struggle with long-horizon tasks characterized by sparse rewards. Some hierarchical generation methods have been developed to mitigate this issue by decomposing the original problem into shorter-horizon subproblems using one policy and generating detailed actions with another. While effective, these methods often overlook the multi-scale temporal structure inherent in trajectories, resulting in suboptimal performance. To overcome these limitations, we propose MAGE, a Multi-scale Autoregressive GEneration-based offline RL method. MAGE incorporates a condition-guided multi-scale autoencoder to learn hierarchical trajectory representations, along with a multi-scale transformer that autoregressively generates trajectory representations from coarse to fine temporal scales. MAGE effectively captures temporal dependencies of trajectories at multiple resolutions. Additionally, a condition-guided decoder is employed to exert precise control over short-term behaviors. Extensive experiments on five offline RL benchmarks against fifteen baseline algorithms show that MAGE successfully integrates multi-scale trajectory modeling with conditional guidance, generating coherent and controllable trajectories in long-horizon sparse-reward settings.
- Abstract(参考訳): 生成モデルは、複雑な軌道分布をモデル化する能力により、オフライン強化学習(RL)において大きな牽引力を得ている。
しかし、既存の世代ベースのアプローチは、まばらな報酬を特徴とする長期的タスクに依然として苦戦している。
いくつかの階層的生成法は、元の問題を1つのポリシーを使ってより短い水平のサブプロブレムに分解し、別のポリシーで詳細なアクションを生成することによってこの問題を軽減するために開発されている。
効果はあるものの、これらの手法はトラジェクトリに固有のマルチスケールの時間構造を見落とし、最適以下の性能をもたらす。
これらの制約を克服するために,マルチスケール自動回帰GEnerationに基づくオフラインRL法であるMAGEを提案する。
MAGEには条件誘導型マルチスケールオートエンコーダが組み込まれ、階層的な軌道表現と、粗い時間スケールから細かな時間スケールまで自動回帰的に軌道表現を生成するマルチスケールトランスフォーマーが組み込まれている。
MAGEは、トラジェクトリの時間的依存関係を複数の解像度で効果的にキャプチャする。
また、条件誘導デコーダを用いて短期動作の精密制御を行う。
5つのオフラインRLベンチマークと15のベースラインアルゴリズムの大規模な実験により、MAGEはマルチスケールの軌跡モデリングと条件付き誘導をうまく統合し、長距離スパース・リワード設定においてコヒーレントかつ制御可能な軌跡を生成することを示した。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整
自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文 参考訳(メタデータ) (2025-12-23T18:51:50Z) - Efficient Generative Transformer Operators For Million-Point PDEs [12.324265832276538]
ECHOは100万ポイントのPDEトラジェクトリを生成するためのトランスフォーマー演算フレームワークである。
複雑,高周波,長期の地平線を特徴とする100万点シミュレーションの最先端性能を実証する。
論文 参考訳(メタデータ) (2025-12-04T16:46:48Z) - DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions [6.723690093335988]
本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
論文 参考訳(メタデータ) (2025-09-23T20:06:26Z) - State-Covering Trajectory Stitching for Diffusion Planners [29.89423911968709]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。
より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。
HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文 参考訳(メタデータ) (2025-03-25T22:52:46Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning [17.760679318994384]
空間の学習量化器を利用する階層型トランスフォーマーに基づく新しい手法を提案する。
この量子化により、より単純なゾーン条件の低レベルポリシーのトレーニングが可能になり、計画が簡単になる。
提案手法は,複雑な長距離ナビゲーション環境における最先端の成果を実現する。
論文 参考訳(メタデータ) (2024-11-12T12:49:41Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。