論文の概要: AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2604.18562v2
- Date: Tue, 21 Apr 2026 11:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.954512
- Title: AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation
- Title(参考訳): AnchorSeg: セグメンテーションを推論するための言語基盤クエリバンク
- Authors: Rui Qian, Chuanhang Deng, Qiang Huang, Jian Xiong, Mingxuan Li, Yingbo Zhou, Wei Zhai, Jintao Chen, Dejing Dou,
- Abstract要約: AnchorSegを導入し、画像トークン上での条件生成の構造化として、推論セグメンテーションを再構成する。
我々は、アンカークエリがローカライズ信号を決定する画像トークン上の因子分布として空間条件をモデル化する。
Token-Mask Cycle Consistency (TMCC)を提案する。
- 参考スコア(独自算出の注目度): 56.21301367698041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning segmentation requires models to ground complex, implicit textual queries into precise pixel-level masks. Existing approaches rely on a single segmentation token $\texttt{<SEG>}$, whose hidden state implicitly encodes both semantic reasoning and spatial localization, limiting the model's ability to explicitly disentangle what to segment from where to segment. We introduce AnchorSeg, which reformulates reasoning segmentation as a structured conditional generation process over image tokens, conditioned on language grounded query banks. Instead of compressing all semantic reasoning and spatial localization into a single embedding, AnchorSeg constructs an ordered sequence of query banks: latent reasoning tokens that capture intermediate semantic states, and a segmentation anchor token that provides explicit spatial grounding. We model spatial conditioning as a factorized distribution over image tokens, where the anchor query determines localization signals while contextual queries provide semantic modulation. To bridge token-level predictions and pixel-level supervision, we propose Token--Mask Cycle Consistency (TMCC), a bidirectional training objective that enforces alignment across resolutions. By explicitly decoupling spatial grounding from semantic reasoning through structured language grounded query banks, AnchorSeg achieves state-of-the-art results on ReasonSeg test set (67.7\% gIoU and 68.1\% cIoU). All code and models are publicly available at https://github.com/rui-qian/AnchorSeg.
- Abstract(参考訳): 推論セグメンテーションでは、複雑な暗黙のテキストクエリを正確なピクセルレベルのマスクにグラウンドする必要がある。
既存のアプローチは単一のセグメンテーショントークン$\texttt{<SEG>}$に依存しており、隠れた状態は意味論的推論と空間的ローカライゼーションの両方を暗黙的にエンコードし、セグメンテーションからセグメンテーションへのセグメンテーションを明示的に切り離す能力を制限する。
AnchorSegを導入し、画像トークン上での推論セグメント化を構造化条件生成プロセスとして再構成し、言語ベースクエリバンクで条件付けする。
AnchorSegは、すべてのセマンティック推論と空間的ローカライゼーションを単一の埋め込みに圧縮する代わりに、クエリバンクの順序づけられたシーケンスを構築する。
我々は空間条件付けを画像トークン上の因子分布としてモデル化し、アンカークエリが局所化信号を決定するのに対して、コンテキストクエリは意味的変調を提供する。
トークンレベルの予測と画素レベルの監視を橋渡しするために,分解能間のアライメントを強制する双方向トレーニング目標であるToken-Mask Cycle Consistency (TMCC)を提案する。
AnchorSegは、構造化言語に基づくクエリバンクを通じて意味論的推論から空間的グラウンドを明示的に分離することにより、ReasonSegテストセット(67.7\% gIoUと68.1\% cIoU)で最先端の結果を達成する。
すべてのコードとモデルはhttps://github.com/rui-qian/AnchorSeg.comで公開されている。
関連論文リスト
- Progressive Prompt-Guided Cross-Modal Reasoning for Referring Image Segmentation [11.276795416626385]
画像セグメンテーションの参照は、自由形式の参照表現に基づいて画像中の対象オブジェクトをローカライズし、セグメンテーションすることを目的としている。
画像セグメンテーションを参考にしたプログレッシブプロンプト誘導型クロスモーダル推論フレームワークであるPPCRを提案する。
PPCRは、推論プロセスをSemantic-Spatial Grounding-Instanceパイプラインとして明示的に構成する。
論文 参考訳(メタデータ) (2026-03-30T03:33:10Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。