論文の概要: VIPA: Visual Informative Part Attention for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2602.14788v1
- Date: Mon, 16 Feb 2026 14:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.469312
- Title: VIPA: Visual Informative Part Attention for Referring Image Segmentation
- Title(参考訳): VIPA: イメージセグメンテーションの参照のための視覚的インフォームティブな部分アテンション
- Authors: Yubin Cho, Hyunwoo Yu, Kyeongbo Kong, Kyomin Sohn, Bongjoon Hyun, Suk-Ju Kang,
- Abstract要約: Referring Image (RIS) は、自然言語で記述された対象オブジェクトをセグメント化することを目的としている。
画像セグメンテーションを参照するための新しいビジュアルインフォーマティブ・パート・アテンション(VIPA)フレームワークを提案する。
我々のフレームワークは、ネットワークの注意を、きめ細かな関心領域としっかりと一致させることができる。
- 参考スコア(独自算出の注目度): 21.08745617831414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) aims to segment a target object described by a natural language expression. Existing methods have evolved by leveraging the vision information into the language tokens. To more effectively exploit visual contexts for fine-grained segmentation, we propose a novel Visual Informative Part Attention (VIPA) framework for referring image segmentation. VIPA leverages the informative parts of visual contexts, called a visual expression, which can effectively provide the structural and semantic visual target information to the network. This design reduces high-variance cross-modal projection and enhances semantic consistency in an attention mechanism of the referring image segmentation. We also design a visual expression generator (VEG) module, which retrieves informative visual tokens via local-global linguistic context cues and refines the retrieved tokens for reducing noise information and sharing informative visual attributes. This module allows the visual expression to consider comprehensive contexts and capture semantic visual contexts of informative regions. In this way, our framework enables the network's attention to robustly align with the fine-grained regions of interest. Extensive experiments and visual analysis demonstrate the effectiveness of our approach. Our VIPA outperforms the existing state-of-the-art methods on four public RIS benchmarks.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自然言語で記述された対象オブジェクトをセグメントすることを目的としている。
既存の手法は、視覚情報を言語トークンに活用することで進化してきた。
視覚的コンテキストをより効果的に活用するために,画像のセグメンテーションを参照するための視覚的インフォーマティブ・パート・アテンション(VIPA)フレームワークを提案する。
VIPAは視覚的表現と呼ばれる視覚的コンテキストの情報的部分を活用し、ネットワークに構造的および意味的な視覚的ターゲット情報を効果的に提供する。
この設計は、高分散クロスモーダル投影を低減し、参照画像セグメンテーションの注意機構における意味的一貫性を高める。
また,視覚表現生成モジュール(VEG)を設計し,局所言語的文脈から情報的視覚的トークンを抽出し,検索したトークンを改良し,ノイズ情報の低減と情報的視覚的属性の共有を行う。
このモジュールは、視覚表現が包括的なコンテキストを考慮し、情報的領域の意味的な視覚的コンテキストをキャプチャすることを可能にする。
このようにして、我々のフレームワークは、ネットワークの注意を、きめ細かな関心領域としっかりと一致させることを可能にします。
広汎な実験と視覚分析により,本手法の有効性が示された。
我々のVIPAは4つの公開RISベンチマークで既存の最先端の手法よりも優れています。
関連論文リスト
- Latent Expression Generation for Referring Image Segmentation and Grounding [13.611995923070426]
既存のほとんどのメソッドは単一のテキスト入力に依存しており、視覚領域で利用可能なリッチな情報のごく一部しか取得できない。
このリッチ・ビジュアル・ディテールと粗雑なテキスト・キューのミスマッチは、類似したオブジェクトの誤識別につながる可能性がある。
単一のテキスト入力から生成された複数の潜在表現を利用する新しい視覚的グラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T07:57:27Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。