論文の概要: TALENT: Target-aware Efficient Tuning for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2604.00609v1
- Date: Wed, 01 Apr 2026 08:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.900761
- Title: TALENT: Target-aware Efficient Tuning for Referring Image Segmentation
- Title(参考訳): TALENT:画像セグメント参照のためのターゲット認識能率チューニング
- Authors: Shuo Jin, Siyue Yu, Bingfeng Zhang, Chao Yao, Meiqin Liu, Jimin Xiao,
- Abstract要約: イメージセグメンテーションの参照は、自然なテキスト表現に基づいて特定のターゲットをセグメンテーションすることを目的としている。
既存のPETベースのメソッドは、視覚的特徴がテキスト参照ターゲットインスタンスを強調できないという事実に悩まされることが多い。
本稿では,PET ベースの RIS に対して,目標認識を効果的に調整する新しいフレームワーク TALENT を提案する。
- 参考スコア(独自算出の注目度): 42.766432845564786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation aims to segment specific targets based on a natural text expression. Recently, parameter-efficient tuning (PET) has emerged as a promising paradigm. However, existing PET-based methods often suffer from the fact that visual features can't emphasize the text-referred target instance but activate co-category yet unrelated objects. We analyze and quantify this problem, terming it the `non-target activation' (NTA) issue. To address this, we propose a novel framework, TALENT, which utilizes target-aware efficient tuning for PET-based RIS. Specifically, we first propose a Rectified Cost Aggregator (RCA) to efficiently aggregate text-referred features. Then, to calibrate `NTA' into accurate target activation, we adopt a Target-aware Learning Mechanism (TLM), including contextual pairwise consistency learning and target-centric contrastive learning. The former uses the sentence-level text feature to achieve a holistic understanding of the referent and constructs a text-referred affinity map to optimize the semantic association of visual features. The latter further enhances target localization to discover the distinct instance while suppressing associations with other unrelated ones. The two objectives work in concert and address `NTA' effectively. Extensive evaluations show that TALENT outperforms existing methods across various metrics (e.g., 2.5\% mIoU gains on G-Ref val set). Our codes will be released at: https://github.com/Kimsure/TALENT.
- Abstract(参考訳): イメージセグメンテーションの参照は、自然なテキスト表現に基づいて特定のターゲットをセグメンテーションすることを目的としている。
近年,パラメータ効率チューニング (PET) が有望なパラダイムとして登場している。
しかし、既存のPETベースの手法は、視覚的特徴がテキスト参照されたターゲットインスタンスを強調できないという事実に悩まされることが多い。
我々はこの問題を分析・定量化し、それを「非ターゲットアクティベーション(NTA)」問題と呼ぶ。
そこで本研究では,PET ベースの RIS に対して,目標認識を効率よくチューニングする新しいフレームワーク TALENT を提案する。
具体的には、まず、テキスト参照機能を効率的に集約するRectified Cost Aggregator (RCA)を提案する。
そして,「NTA」を正確なターゲットアクティベーションにキャリブレーションするために,文脈的相互整合性学習と目標中心のコントラスト学習を含むターゲット認識学習機構(TLM)を採用する。
前者は、文章レベルのテキスト機能を使用して、参照者の全体的理解を達成し、テキスト参照親和性マップを構築し、視覚的特徴のセマンティックアソシエーションを最適化する。
後者は、他の無関係なものとの関連を抑えながら、異なるインスタンスを発見するために、ターゲットのローカライゼーションをさらに強化する。
2つの目的はコンサートで働き、「NTA」を効果的に扱う。
広範囲な評価の結果,TALENT は G-Ref val 上での 2.5\% mIoU ゲインなど,様々な指標で既存手法よりも優れていた。
コードについては、https://github.com/Kimsure/TALENT.comで公開します。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic Segmentation [7.5856806269316825]
弱いラベルを用いた弱教師付きセマンティックセグメンテーション(WSSS)は,画素レベルのラベルを取得するためのアノテーションコストを軽減するために活発に研究されている。
本稿では,WSSS のためのショートカット緩和機能 (SMA) を提案する。これは,トレーニングデータに見られないオブジェクトと背景の組み合わせの合成表現を生成し,ショートカット機能の使用を減らす。
論文 参考訳(メタデータ) (2024-05-28T13:07:35Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。