論文の概要: DSSP: Diffusion State Space Policy with Full-History Encoding
- arxiv url: http://arxiv.org/abs/2605.14598v2
- Date: Thu, 21 May 2026 03:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.41195
- Title: DSSP: Diffusion State Space Policy with Full-History Encoding
- Title(参考訳): DSSP:フルヒストリーエンコーディングによる拡散状態空間政策
- Authors: Zhiyuan Guan, Jianshu Hu, Han Fang, Yunpeng Jiang, Yize Huang, Shujia Li, Xiao Li, Yutong Ban,
- Abstract要約: 本稿では,ロボット操作のための歴史条件付き拡散状態空間ポリシーDSSPを紹介する。
我々の履歴エンコーダは、観測ストリーム全体をコンパクトな文脈表現に効果的に圧縮する。
実験の結果,DSSPはモデルサイズが大幅に小さく,最先端の性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 21.841502368436423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based imitation learning has shown strong promise for robot manipulation. However, most existing policies condition only on the current observation or a short window of recent observations, limiting their ability to resolve history-dependent ambiguities in long-horizon tasks. To address this, we introduce DSSP, a history-conditioned Diffusion State Space Policy that enables efficient, full-history conditioning for robot manipulation. Leveraging the continuous sequence modeling properties of State Space Models (SSMs), our history encoder effectively compresses the entire observation stream into a compact context representation. To ensure this context preserves critical information regarding future state evolution, the encoder is optimized with a dynamics-aware auxiliary training objective. This high-level context representation is then seamlessly fused with recent state observations to form a hierarchical conditioning mechanism for action generation. Furthermore, to maintain architectural consistency and minimize GPU memory overhead, we also instantiate the diffusion backbone itself using an SSM. Extensive experiments across simulation benchmarks and real-world manipulation tasks show that DSSP achieves state-of-the-art performance with a significantly smaller model size, demonstrating superior efficiency of the hierarchical conditioning in capturing crucial information as the history length increases.
- Abstract(参考訳): 拡散に基づく模倣学習はロボット操作に強く期待されている。
しかし、既存の政策条件のほとんどは、現在の観測や最近の観測のショートウインドウに限られており、長期の作業において歴史に依存した曖昧さを解消する能力に制限されている。
そこで本研究では,ロボット操作のための効率的なフルヒストリーコンディショニングを実現する,歴史条件付き拡散状態空間ポリシーDSSPを紹介する。
状態空間モデル (SSM) の連続シーケンスモデリング特性を活用し, 履歴エンコーダは観測ストリーム全体をコンパクトな文脈表現に効果的に圧縮する。
このコンテキストが将来の状態の進化に関する重要な情報を保存するために、エンコーダは動的に認識された補助訓練目標で最適化される。
この高レベルコンテキスト表現は、最近の状態観測とシームレスに融合し、アクション生成のための階層的条件付け機構を形成する。
さらに,アーキテクチャの整合性を維持し,GPUメモリのオーバーヘッドを最小限に抑えるため,拡散バックボーン自体をSSMを用いてインスタンス化する。
シミュレーションベンチマークと実世界の操作タスクによる広範囲な実験により、DSSPはモデルサイズが大幅に小さい最先端の性能を達成し、履歴が大きくなるにつれて重要な情報を取得する階層的条件付けの優れた効率を示す。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation [8.624395048491275]
適応動的スパース注意(adaptive Dynamic Sparse Attention, ADSA)と呼ばれる新しい学習自由コンテキスト最適化手法を提案する。
ADSAは、局所的なテクスチャの整合性を維持するのに欠かせない歴史的トークンと、グローバルなセマンティック・コヒーレンスを確保するのに欠かせないトークンを特定し、効率的に注意を合理化する。
また、ADSAに適した動的KV-cache更新機構を導入し、推論中のGPUメモリ消費量を約50%削減する。
論文 参考訳(メタデータ) (2025-06-23T01:27:06Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Shifting AI Efficiency From Model-Centric to Data-Centric Compression [67.45087283924732]
AI研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と私たちは主張する。
データ中心圧縮は、モデルトレーニングや推論中に処理されたデータのボリュームを直接圧縮することで、AI効率を向上させる。
我々の研究は、AIの効率性に関する新たな視点を提供し、既存の取り組みを合成し、コンテキスト長の増大によって引き起こされる課題に対処するためにイノベーションを触媒することを目的としています。
論文 参考訳(メタデータ) (2025-05-25T13:51:17Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。