論文の概要: Arcee: Differentiable Recurrent State Chain for Generative Vision Modeling with Mamba SSMs
- arxiv url: http://arxiv.org/abs/2511.11243v2
- Date: Mon, 17 Nov 2025 18:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.572067
- Title: Arcee: Differentiable Recurrent State Chain for Generative Vision Modeling with Mamba SSMs
- Title(参考訳): Arcee: Mamba SSMを用いた生成的ビジョンモデリングのための微分型リカレントステートチェーン
- Authors: Jitesh Chavan, Rohit Lal, Anand Kamat, Mengjia Xu,
- Abstract要約: 状態空間モデル(SSM)は、長文シーケンスモデリングにますます採用されている。
最近の"Mamba-for-vision"変種は、非順序信号に対する厳密な因果関係を緩和するために、主に複数のスキャン順序を探索している。
Arceeはブロック間のリカレントステートチェーンであり、各ブロックの端末状態空間表現を再利用する。
- 参考スコア(独自算出の注目度): 3.5590835022089813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs), Mamba in particular, are increasingly adopted for long-context sequence modeling, providing linear-time aggregation via an input-dependent, causal selective-scan operation. Along this line, recent "Mamba-for-vision" variants largely explore multiple scan orders to relax strict causality for non-sequential signals (e.g., images). Rather than preserving cross-block memory, the conventional formulation of the selective-scan operation in Mamba reinitializes each block's state-space dynamics from zero, discarding the terminal state-space representation (SSR) from the previous block. Arcee, a cross-block recurrent state chain, reuses each block's terminal state-space representation as the initial condition for the next block. Handoff across blocks is constructed as a differentiable boundary map whose Jacobian enables end-to-end gradient flow across terminal boundaries. Key to practicality, Arcee is compatible with all prior "vision-mamba" variants, parameter-free, and incurs constant, negligible cost. As a modeling perspective, we view terminal SSR as a mild directional prior induced by a causal pass over the input, rather than an estimator of the non-sequential signal itself. To quantify the impact, for unconditional generation on CelebA-HQ (256$\times$256) with Flow Matching, Arcee reduces FID$\downarrow$ from $82.81$ to $15.33$ ($5.4\times$ lower) on a single scan-order Zigzag Mamba baseline. Efficient CUDA kernels and training code will be released to support rigorous and reproducible research.
- Abstract(参考訳): 状態空間モデル(SSM)、特にMambaは、入力依存の因果選択的スキャン操作を通じて線形時間アグリゲーションを提供する長文シーケンスモデリングにますます採用されている。
この線に沿って、最近の"Mamba-for-vision"変種は、連続しない信号(例えば画像)の厳密な因果関係を緩和するために、主に複数のスキャン順序を探索している。
クロスブロックメモリを保存する代わりに、従来のマンバにおける選択的スキャン操作の定式化は、各ブロックの状態空間のダイナミクスをゼロから再初期化し、端末状態空間表現(SSR)を以前のブロックから破棄する。
クロスブロックリカレントステートチェーンであるArceeは、各ブロックの端末状態空間表現を次のブロックの初期条件として再利用する。
ブロック間のハンドオフは、ジャコビアンが終端境界を越えてエンドツーエンドの勾配流を可能にする微分可能な境界写像として構成される。
実用性の鍵となるのは、以前の "vision-mamba" 変種と互換性があり、パラメータフリーで、定数で無視可能なコストがかかることである。
モデリングの観点からは、終端SSRは、非逐次信号自体の推定器ではなく、入力の因果パスによって引き起こされる軽度の方向優先であると見なす。
影響を定量化するために、フローマッチングによるCelebA-HQ(256$\times$256)の非条件生成のために、Arceeは単一のスキャンオーダーのZigzag MambaベースラインでFID$\downarrow$を$82.81$から$15.33$$$5.4\times$ lowerに下げる。
効率的なCUDAカーネルとトレーニングコードがリリースされ、厳密で再現可能な研究をサポートする。
関連論文リスト
- Coupled Data and Measurement Space Dynamics for Enhanced Diffusion Posterior Sampling [27.146380722473932]
ノイズや不完全な測定から未知の信号を回復することが目的の逆問題であり、医療画像、リモートセンシング、計算生物学の中心である。
本稿では,空間拡散後サンプリング(C-DPS)と呼ばれる新しいフレームワークを提案する。
C-DPSは、複数の逆問題ベンチマークにおいて、定性的かつ定量的に、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-08T18:59:16Z) - Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model [15.551773379039675]
ステート・スペース・モデル(SSM)は歴史的にシーケンシャル・モデリングにおいて中心的な役割を果たしてきた。
Mambaのような選択型SSMの最近の進歩は、魅力的な代替手段を提供する。
本研究では,空間的コンテキストアグリゲーションのためのシフトウィンドウ自己アテンションと,効率的な時間的伝搬のためのマンバ型選択走査を組み合わせたハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:11:13Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Vector Copula Variational Inference and Dependent Block Posterior Approximations [5.442153262282512]
VI の鍵となるのは、ベイズ後部を近似するトラクタブル密度の選択である。
本稿では,ブロック間の依存性を同期的に捉えるためにベクトルコプラを用いた手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T00:24:54Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。