論文の概要: UGround: Towards Unified Visual Grounding with Unrolled Transformers
- arxiv url: http://arxiv.org/abs/2510.03853v1
- Date: Sat, 04 Oct 2025 15:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.29848
- Title: UGround: Towards Unified Visual Grounding with Unrolled Transformers
- Title(参考訳): UGround: アンロールされたトランスフォーマーによる統一されたビジュアルグラウンドを目指して
- Authors: Rui Qian, Xin Yin, Chuanhang Deng, Zhiyuan Peng, Jian Xiong, Wei Zhai, Dejing Dou,
- Abstract要約: これは、textbfUnified visual textbfGrounding パラダイムで、textbfUnrolled transformer の中間層をプロンプトとしてマスクとして動的に選択する。
UGroundの中心となるのは、Skip Connection (SSC) と Mask as Prompt (MasP) の2つの重要なコンポーネントからなる、ポリシープロンプト型マスキングである。
- 参考スコア(独自算出の注目度): 42.58167803005241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UGround, a \textbf{U}nified visual \textbf{Ground}ing paradigm that dynamically selects intermediate layers across \textbf{U}nrolled transformers as ``mask as prompt'', diverging from the prevailing pipeline that leverages the fixed last hidden layer as ``\texttt{<SEG>} as prompt''. UGround addresses two primary challenges posed by the prevailing paradigm: (1) its reliance on the fixed last hidden layer, which sequentially amplifies cumulative errors arising from layer-by-layer propagation without intermediate correction, and (2) its use of \texttt{<SEG>} as a prompt, which implicitly projects textual embeddings into visual space without explicit spatial cues (\eg, coordinates). Central to UGround is Policy-Prompted Masking, which comprises two key components: Stochastic Skip Connection (SSC) and Mask as Prompt (MasP). SSC is a reinforcement learning policy that, via stochastic sampling, allows each \texttt{<SEG>} token to slide across unrolled transformer layers, enabling dynamic layer selection at which it connects to the vision model (\eg, SAM) in a skip-connection fashion. Given the selected hidden layer, MasP uses the similarity map derived from the \texttt{<SEG>} token and image tokens as a soft logit mask to prompt SAM for mask generation, offering explicit spatial cues through its activation regions. To validate the effectiveness of UGround, we, for the first time, have unified visual grounding within a single framework from an attribute perspective, spanning from traditional refer expression segmentation to newly proposed reasoning segmentation, single-target to multi-target, positive query to false premise (empty target). All codes and models are publicly available at \href{https://github.com/rui-qian/UGround}{https://github.com/rui-qian/UGround}.
- Abstract(参考訳): UGround, a \textbf{U}nified visual \textbf{Ground}ing paradigm that are a \textbf{U}nrolled transformers across \textbf{U}nrolled transformers as ``mask as prompt'', diverging from the prevailing pipeline which which leverages the fixed last hidden layer as ``\texttt{<SEG>} as prompt'。
UGroundは、(1)中間修正なしで層間伝播から生じる累積誤差を逐次増幅する固定最後の隠蔽層への依存、(2)明示的な空間的手がかりのない視覚空間へのテキスト埋め込みを暗黙的に投影するプロンプトとしてのtexttt{<SEG>}の使用、という2つの主要な課題に対処する。
UGroundの中心となるのは、Stochastic Skip Connection (SSC) と Mask as Prompt (MasP) の2つの主要なコンポーネントからなる、ポリシープロンプト・マスキングである。
SSCは、確率的サンプリングを通じて、各 \texttt{<SEG>}トークンを無回転トランスフォーマー層にスライドさせ、スキップ接続方式でビジョンモデル(\eg, SAM)に接続する動的層選択を可能にする強化学習ポリシーである。
選択された隠蔽層が与えられた場合、MasP は \texttt{<SEG>} トークンと画像トークンをソフトロジットマスクとして使用し、SAM をマスク生成に誘導し、そのアクティベーション領域を通じて明示的な空間的手がかりを提供する。
UGroundの有効性を検証するため,従来の参照表現セグメンテーションから新たに提案された推論セグメンテーション,単一ターゲット,複数ターゲット,肯定的クエリ,虚偽の前提(空的ターゲット)に至るまで,属性の観点から初めて,単一のフレームワーク内での統一的な視覚的基盤を構築する。
すべてのコードとモデルは、 \href{https://github.com/rui-qian/UGround}{https://github.com/rui-qian/UGround} で公開されている。
関連論文リスト
- Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。
RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文 参考訳(メタデータ) (2025-06-07T14:50:26Z) - Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization [54.91271106816616]
本稿では,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。
まず,グローバルトークン変換器(GTFormer)を設計し,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成する。
第2に,フォアグラウンドマスクの確率を最大化するために,密度の高いプロンプトとしてグリッドポイントをSAMに配信する。
論文 参考訳(メタデータ) (2025-05-08T02:44:53Z) - High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - SeCGAN: Parallel Conditional Generative Adversarial Networks for Face
Editing via Semantic Consistency [50.04141606856168]
目的のセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行うラベル誘導型cGANを提案する。
SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージを変換し、もう1つはセマンティックマスク用に訓練されている。
CelebAとCelebA-HQで得られた結果は、我々のアプローチがより正確な属性を持つ顔画像を生成することができることを示している。
論文 参考訳(メタデータ) (2021-11-17T18:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。