論文の概要: Can Graphs Help Vision SSMs See Better?
- arxiv url: http://arxiv.org/abs/2605.11300v1
- Date: Mon, 11 May 2026 22:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.460136
- Title: Can Graphs Help Vision SSMs See Better?
- Title(参考訳): グラフはビジョンSSMをより良くするのに役立つか?
- Authors: Dhruv Parikh, Anvitha Ramachandran, Haoyang Fan, Mustafa Munir, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: 我々は、Vision SSM用のグラフ誘発動的走査演算子である textbfGraphScan を紹介する。
それぞれのトークンに対して、GraphScanは空間的に有界な局所グラフを構築し、相対的な位置バイアスで特徴条件の親和性を学び、出力トークンを生成する。
解析の結果,GraphScanはトークン格子上の解釈可能な変位場を誘導し,ダイナミックスキャニングのセマンティックで空間的に接地されたビューを提供することがわかった。
- 参考スコア(独自算出の注目度): 8.221734233588085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision state space models inherit the efficiency and long-range modeling ability of Mamba-style selective scans. However, their performance depends critically on the representation of two-dimensional visual features as one-dimensional token sequences. Existing scan operators range from predefined geometric traversals to dynamic coordinate-based samplers that reroute tokens through predicted offsets and interpolation. While effective, these mechanisms primarily adapt paths or sampling locations, rather than explicitly modeling which local patches should exchange information before global state-space mixing. This motivates a simple question: \emph{can graphs help vision state space models see better?} We introduce \textbf{GraphScan}, a graph-induced dynamic scanning operator for Vision SSMs. For each token, GraphScan constructs a spatially bounded local graph, learns feature-conditioned affinities with relative positional bias, and produces the output token by one-step message passing over its semantic neighborhood. The resulting tokens are locally grounded before being processed by the selective SSM for global aggregation. GraphScan preserves token count and linear scaling in image size, while replacing coordinate-conditioned interpolation with feature-conditioned semantic routing. Integrated into a hierarchical backbone, \textbf{GraphScan-Mamba} achieves state-of-the-art performance among Vision SSMs across image classification, object detection, instance segmentation, and semantic segmentation, with modest computational overhead. Our analysis further shows that GraphScan induces interpretable displacement fields over the token lattice, providing a semantic and spatially grounded view of dynamic scanning. These results suggest that future Vision SSMs should treat scanning not merely as geometric serialization, but as learned local semantic routing before global state-space modeling.
- Abstract(参考訳): 視覚状態空間モデルは、マンバ型選択的スキャンの効率性と長距離モデリング能力を継承する。
しかし、それらの性能は、二次元の視覚的特徴を1次元のトークンシーケンスとして表現することに大きく依存する。
既存のスキャン演算子は、事前に定義された幾何学的トラバーサルから、予測されたオフセットと補間を通してトークンを反転させる動的座標に基づくサンプリングまで様々である。
有効ではあるが、これらのメカニズムは、グローバルな状態空間の混合の前に、どのローカルパッチが情報を交換すべきかを明示的にモデル化するのではなく、主にパスやサンプリングロケーションに適応する。
これは単純な質問を動機付けている: \emph{can graphs help vision state space models look better?
グラフによるビジョンSSMの動的走査演算子であるtextbf{GraphScan}を紹介する。
それぞれのトークンに対して、GraphScanは空間的に有界な局所グラフを構築し、相対的な位置バイアスで特徴条件の親和性を学び、そのセマンティックな近傍を通るワンステップメッセージによって出力トークンを生成する。
得られたトークンは、グローバルアグリゲーションのための選択的なSSMによって処理される前に局所的に接地される。
GraphScanは、座標条件の補間を特徴条件のセマンティックルーティングに置き換えながら、画像サイズのトークン数と線形スケーリングを保存する。
階層的なバックボーンに統合された \textbf{GraphScan-Mamba} は、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにまたがるビジョンSSM間の最先端のパフォーマンスを実現する。
解析により,GraphScanはトークン格子上の解釈可能な変位場を誘導し,ダイナミックスキャニングのセマンティックで空間的に接地されたビューを提供することが示された。
これらの結果は、将来のビジョンSSMは、走査を幾何学的シリアライゼーションとして扱うだけでなく、グローバルな状態空間モデリングの前に学習された局所的な意味的ルーティングとして扱うべきであることを示唆している。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Dynamic Graph Representation with Knowledge-aware Attention for
Histopathology Whole Slide Image Analysis [11.353826466710398]
本稿では,知識グラフ構造の形式としてWSIを概念化する新しい動的グラフ表現アルゴリズムを提案する。
具体的には、インスタンス間の頭と尾の関係に基づいて、隣人や方向のエッジの埋め込みを動的に構築する。
我々のエンドツーエンドグラフ表現学習アプローチは、TCGAベンチマーク3つのデータセットと社内テストセットにおける最先端のWSI分析手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T14:58:51Z) - Graph Information Bottleneck for Remote Sensing Segmentation [8.879224757610368]
本稿では、画像をグラフ構造として扱い、リモートセンシングセグメンテーションのための単純なコントラスト視覚GNNアーキテクチャを提案する。
具体的には,ノードマップとエッジマップのグラフビューを構築し,最適なグラフ構造表現を得る。
UNetの畳み込みモジュールをSC-ViGモジュールに置き換え、セグメンテーションと分類タスクを完成させる。
論文 参考訳(メタデータ) (2023-12-05T07:23:22Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。