論文の概要: Sequential Token Merging: Revisiting Hidden States
- arxiv url: http://arxiv.org/abs/2509.22691v1
- Date: Fri, 19 Sep 2025 14:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.79633
- Title: Sequential Token Merging: Revisiting Hidden States
- Title(参考訳): シークエンシャル・トーケン・マージング:隠れた国家を再考
- Authors: Yan Wen, Peng Ye, Lin Zhang, Baopu Li, Jiakang Yuan, Yaoxin Yang, Tao Chen,
- Abstract要約: Vision Mambas (ViMs) は準四面体複雑性で顕著な成功を収めるが、その効率は画像解像度を伴う二次トークンスケーリングによって制限されている。
本研究では,(1)対称な空間アグリゲーションを通した逐次的依存関係を維持するために,(2)クラストークンの周辺に隠れた状態を安定化するための隠れ状態保護を特徴とするシーケンシャルトークンマージ(STM)を提案する。
本手法は,状態空間モデル力学の新しい知見を提供しながら,最小限の複雑さで最先端の効率を実現する。
- 参考スコア(独自算出の注目度): 29.89737086314315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Mambas (ViMs) achieve remarkable success with sub-quadratic complexity, but their efficiency remains constrained by quadratic token scaling with image resolution. While existing methods address token redundancy, they overlook ViMs' intrinsic Limited Directional Sequential Dependence (LDSD) - a critical information flow mechanism revealed in our analysis. We further identify Mamba's selective scan enables gradual information aggregation in hidden states. Based on these insights, we propose Sequential Token Merging (STM), featuring: 1) Bidirectional nearest neighbor merging to preserve sequential dependencies through symmetric spatial aggregation, and 2) Hidden states protection to stabilize the hidden states around the class token. STM strategically leverages Mamba's layer-wise loss convergence to convert temporal forgetfulness into stability. Experiments demonstrate STM's superiority: 1.0% accuracy drop for ViM-Ti at 20% token reduction, and only 1.4% degradation for ViM-S at 40% reduction. Our method achieves state-of-the-art efficiency with minimal complexity, while providing new insights into state-space model dynamics. Codes will be released soon.
- Abstract(参考訳): Vision Mambas (ViMs) は準四面体複雑性で顕著な成功を収めるが、その効率は画像解像度を伴う二次トークンスケーリングによって制限されている。
既存の手法はトークンの冗長性に対処するが、VIMsの本質的な限定方向順序依存性(LDSD)を見落としている。
さらに,マンバの選択的スキャンにより,隠蔽状態における段階的な情報集約が可能となった。
これらの知見に基づいて、以下を特徴とするシーケンシャルトークンマージ(STM)を提案する。
1) 対称的空間集合による逐次的依存を維持するための双方向近傍融合
2) 隠れた状態はクラストークンの周りの隠れた状態を安定化するために保護される。
STMはマンバの層ワイド損失収束を戦略的に利用し、時間的忘れやすさを安定性に変換する。
実験では、ViM-Tiが20%のトークン還元で1.0%の精度低下、ViM-Sが40%の分解でわずか1.4%の劣化を示した。
本手法は,状態空間モデル力学の新しい知見を提供しながら,最小限の複雑さで最先端の効率を実現する。
コードも間もなくリリースされる予定だ。
関連論文リスト
- StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - Content-Aware Mamba for Learned Image Compression [33.05776457003562]
本稿では,その処理を画像コンテンツに動的に適応させるSSMであるContentAware Mamba(CAM)を紹介する。
まず、厳密なスキャンをコンテンツ適応型トークン置換戦略に置き換える。
第二に、状態空間モデルにサンプル固有のグローバルプリエントを注入することで、シーケンシャルな依存関係を克服する。
論文 参考訳(メタデータ) (2025-08-04T08:42:23Z) - QuarterMap: Efficient Post-Training Token Pruning for Visual State Space Models [8.543701468361395]
QuarterMapはスキャンする前に余分な空間的アクティベーションを取り除き、最寄りのアップサンプリングを通じて次元を復元する。
ImageNet-1Kでは、QuarterMapは0.9%の精度低下でVMamba上で11%のスピードアップを達成し、ADE20Kセグメンテーションでも同様の利得が得られる。
同一の4方向走査構造を持つドメイン固有モデルであるMedMamba上でQuarterMapを検証する。
論文 参考訳(メタデータ) (2025-07-13T06:49:32Z) - StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning [31.585380521480868]
自己教師付きポイントクラウド表現学習のための新しいパラダイムであるStruMamba3Dを提案する。
空間状態を設計し,それらをプロキシとして用いて点間の空間的依存関係を保存する。
提案手法は,ModelNet40上でのSOTA 95.1%の精度と,投票戦略を使わずに最も難しい分割ScanObjectNN上での92.75%の精度を実現する。
論文 参考訳(メタデータ) (2025-06-26T17:58:05Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality [16.576495786546612]
隠れ状態ミキサーに基づく状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mambaを紹介する。
隠れ状態の表現力を強化するために,多段隠れ状態融合を提案し,メモリバウンド操作によるボトルネックを軽減する設計を提案する。
その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現し、より高速な第2世代モデルSHViTよりも最大で0.7%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-11-22T02:02:06Z) - MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文 参考訳(メタデータ) (2024-05-24T10:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。