論文の概要: OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection
- arxiv url: http://arxiv.org/abs/2602.00904v1
- Date: Sat, 31 Jan 2026 21:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.457658
- Title: OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection
- Title(参考訳): OCTOPUS:多次元スコープとトラバース選択による視覚SSMの空間認識の強化
- Authors: Kunal Mahatha, Ali Bahri, Pierre Marza, Sahar Dastani, Maria Vakalopoulou, Stergios Christodoulidis, Jose Dolz, Christian Desrosiers,
- Abstract要約: 我々は,大域的コンテキストと画像内の局所空間構造の両方を保存する新しいアーキテクチャであるOCTOPUSを紹介する。
OCTOPUSは8つの主方向に沿って個別に再起し、水平方向、垂直方向、対角方向を前方または後方に進む。
分類とセグメンテーションのベンチマークでは、OCTOPUSは境界保存と領域の整合性において顕著な改善を示した。
- 参考スコア(独自算出の注目度): 20.717476762904038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) have recently emerged as an alternative to transformers due to their unique ability of modeling global relationships in text with linear complexity. However, their success in vision tasks has been limited due to their causal formulation, which is suitable for sequential text but detrimental in the spatial domain where causality breaks the inherent spatial relationships among pixels or patches. As a result, standard SSMs fail to capture local spatial coherence, often linking non-adjacent patches while ignoring neighboring ones that are visually correlated. To address these limitations, we introduce OCTOPUS , a novel architecture that preserves both global context and local spatial structure within images, while maintaining the linear complexity of SSMs. OCTOPUS performs discrete reoccurrence along eight principal orientations, going forward or backward in the horizontal, vertical, and diagonal directions, allowing effective information exchange across all spatially connected regions while maintaining independence among unrelated patches. This design enables multi-directional recurrence, capturing both global context and local spatial structure with SSM-level efficiency. In our classification and segmentation benchmarks, OCTOPUS demonstrates notable improvements in boundary preservation and region consistency, as evident from the segmentation results, while maintaining relatively better classification accuracy compared to existing V-SSM based models. These results suggest that OCTOPUS appears as a foundation method for multi-directional recurrence as a scalable and effective mechanism for building spatially aware and computationally efficient vision architectures.
- Abstract(参考訳): 状態空間モデル(SSM)は、線形複雑性を持つテキストでグローバルな関係をモデル化するユニークな能力のために、トランスフォーマーの代替として最近登場した。
しかし、それらの視覚タスクの成功は、因果関係が画素やパッチ間の固有の空間関係を破る空間領域において、逐次テキストに適した因果関係の定式化によって制限されている。
その結果、標準的なSSMは局所的な空間コヒーレンスを捉えず、しばしば非隣接パッチをリンクし、視覚的に相関している隣のパッチを無視している。
これらの制約に対処するため,我々は,SSMの線形複雑性を維持しつつ,画像内の大域的コンテキストと局所的空間構造の両方を保存する新しいアーキテクチャであるOCTOPUSを紹介する。
OCTOPUSは8つの主要方向に沿って離散的に再起し、水平方向、垂直方向、対角方向を前方または後方に進み、無関係なパッチ間の独立を維持しながら、すべての空間的に接続された領域間で効果的な情報交換を可能にする。
この設計により、グローバルコンテキストと局所空間構造の両方をSSMレベルの効率で捉えることができる。
分類とセグメンテーションのベンチマークにおいて,OCTOPUSは,既存のV-SSMモデルと比較して比較的優れた分類精度を維持しつつ,セグメンテーション結果から明らかなように,境界保存と領域一貫性の顕著な改善を示す。
これらの結果から,OCTOPUSは空間的に認識され,計算的に効率的な視覚アーキテクチャを構築するためのスケーラブルで効果的なメカニズムとして,多方向反復の基礎的手法として現れることが示唆された。
関連論文リスト
- SENDAI: A Hierarchical Sparse-measurement, EfficieNt Data AssImilation Framework [2.070436148502153]
SENDAIは階層的なスパース測定フレームワークであり、スパースセンサー観測から全空間状態を再構築する。
SENDAIは従来のベースラインよりも185%の最大SSIM改善を実現し、最近の高周波ベースの手法よりも36%改善した。
論文 参考訳(メタデータ) (2026-01-29T12:58:54Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - A Multi-scale Fused Graph Neural Network with Inter-view Contrastive Learning for Spatial Transcriptomics Data Clustering [7.214595408714774]
畳み込み後の空間的特徴と遺伝子的特徴を動的に統合するために,階層的に相互に注目するマルチスケールな相互融合グラフネットワークstMFGを提案する。
最先端の手法よりも優れており、特定のスライスで最大14%のARI改善を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:13:55Z) - Graph Laplacian Transformer with Progressive Sampling for Prostate Cancer Grading [2.9485900021889146]
本稿では,特徴学習と空間整合性の両立を図るために,反復リファインメントモジュール (IRM) と統合されたグラフラプラシアンアテンションベーストランス (GLAT) を提案する。
IRMは、事前訓練されたResNet50を局所的特徴抽出に利用し、重要なスコアリングのために、非段階的なモードで基礎モデルを活用することにより、パッチ選択を反復的に洗練する。
GLATは、パッチがノードとして機能するグラフを構築し、グラフラプラシアン制約による空間的一貫性を確保することによって、組織レベルの接続をモデル化する。
論文 参考訳(メタデータ) (2025-12-11T16:55:57Z) - SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution [11.194678655584788]
MC-MRI SRは、高分解能(HR)参照を活用することで、低分解能(LR)コントラストを強化することを目的としている。
主な課題は、空間的なセマンティックな一貫性を維持することである。
論文 参考訳(メタデータ) (2025-09-23T03:24:32Z) - ST-LINK: Spatially-Aware Large Language Models for Spatio-Temporal Forecasting [7.853736939635847]
逐次的依存関係をキャプチャする大規模言語モデルの能力を高める新しいフレームワークST-LINKを紹介する。
その鍵となる構成要素は空間拡張注意(SE-Attention)とメモリ検索フィードフォワードネットワーク(MRFFN)である。
論文 参考訳(メタデータ) (2025-09-17T07:11:45Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。