論文の概要: MambaEye: A Size-Agnostic Visual Encoder with Causal Sequential Processing
- arxiv url: http://arxiv.org/abs/2511.19963v1
- Date: Tue, 25 Nov 2025 06:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.298726
- Title: MambaEye: A Size-Agnostic Visual Encoder with Causal Sequential Processing
- Title(参考訳): MambaEye: 因果シーケンス処理を備えたサイズに依存しないビジュアルエンコーダ
- Authors: Changho Choi, Minho Kim, Jinkyu Kim,
- Abstract要約: MambaEyeは、低複雑さと因果プロセスベースの純粋なMamba2バックボーンを活用する、新しい因果シーケンシャルエンコーダである。
従来のMambaベースの視覚エンコーダとは異なり、我々の厳密な一方向アプローチは、状態空間モデルの本質的な因果性を保存する。
MambaEyeは、幅広い画像解像度、特にImageNet-1K分類タスクの15362$のような高解像度で、堅牢なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 14.888533532729864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite decades of progress, a truly input-size agnostic visual encoder-a fundamental characteristic of human vision-has remained elusive. We address this limitation by proposing \textbf{MambaEye}, a novel, causal sequential encoder that leverages the low complexity and causal-process based pure Mamba2 backbone. Unlike previous Mamba-based vision encoders that often employ bidirectional processing, our strictly unidirectional approach preserves the inherent causality of State Space Models, enabling the model to generate a prediction at any point in its input sequence. A core innovation is our use of relative move embedding, which encodes the spatial shift between consecutive patches, providing a strong inductive bias for translation invariance and making the model inherently adaptable to arbitrary image resolutions and scanning patterns. To achieve this, we introduce a novel diffusion-inspired loss function that provides dense, step-wise supervision, training the model to build confidence as it gathers more visual evidence. We demonstrate that MambaEye exhibits robust performance across a wide range of image resolutions, especially at higher resolutions such as $1536^2$ on the ImageNet-1K classification task. This feat is achieved while maintaining linear time and memory complexity relative to the number of patches.
- Abstract(参考訳): 数十年にわたる進歩にもかかわらず、真のインプットサイズに依存しない視覚エンコーダは、人間の視覚の基本的な特徴である。
この制限に対処するために、低複雑性と因果処理に基づく純粋なMamba2バックボーンを活用する、新しい因果シーケンシャルエンコーダであるtextbf{MambaEye}を提案する。
従来のマンバベースの視覚エンコーダと異なり、我々の厳密な一方向アプローチは、状態空間モデルの本質的な因果関係を保ち、入力シーケンスの任意の時点でモデルを予測できる。
中心となる革新は、連続するパッチ間の空間シフトを符号化し、変換不変性に対して強い帰納バイアスを与え、任意の画像解像度や走査パターンに本質的に適応させる相対移動埋め込みである。
これを実現するために,より視覚的な証拠を収集する上で,モデルの信頼性を高めるために,高密度で段階的な監視を提供する拡散誘導損失関数を導入する。
我々は,MambaEyeが画像解像度,特にImageNet-1K分類タスクにおいて1536^2$などの高解像度で堅牢な性能を示すことを示した。
この偉業は、パッチの数に対して線形時間とメモリの複雑さを維持しながら達成される。
関連論文リスト
- Scaling Vision Mamba Across Resolutions via Fractal Traversal [9.566046692165884]
Vision MambaはTransformerベースのアーキテクチャに代わる有望な選択肢として最近登場した。
Hilbert曲線によるフラクタルベースのパッチシリアライゼーションを活用するビジョンバックボーンであるFractalMamba++を提案する。
FractalMamba++は、従来のMambaベースのバックボーンよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-20T08:08:28Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。
マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。
トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-20T12:36:34Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。