論文の概要: Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
- arxiv url: http://arxiv.org/abs/2504.16145v1
- Date: Tue, 22 Apr 2025 12:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.873478
- Title: Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
- Title(参考訳): プログレッシブ言語誘導型視覚学習によるマルチタスクビジュアルグラウンド
- Authors: Jingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng,
- Abstract要約: マルチタスクビジュアルグラウンドティングのためのプログレッシブ言語誘導型ビジュアルラーニングフレームワークを提案する。
本稿では,マルチタスク・ビジュアル・グラウンドティングのためのプログレッシブ言語誘導型ビジュアル・ラーニング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.297317604403652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task visual grounding (MTVG) includes two sub-tasks, i.e., Referring Expression Comprehension (REC) and Referring Expression Segmentation (RES). The existing representative approaches generally follow the research pipeline which mainly consists of three core procedures, including independent feature extraction for visual and linguistic modalities, respectively, cross-modal interaction module, and independent prediction heads for different sub-tasks. Albeit achieving remarkable performance, this research line has two limitations: 1) The linguistic content has not been fully injected into the entire visual backbone for boosting more effective visual feature extraction and it needs an extra cross-modal interaction module; 2) The relationship between REC and RES tasks is not effectively exploited to help the collaborative prediction for more accurate output. To deal with these problems, in this paper, we propose a Progressive Language-guided Visual Learning framework for multi-task visual grounding, called PLVL, which not only finely mine the inherent feature expression of the visual modality itself but also progressively inject the language information to help learn linguistic-related visual features. In this manner, our PLVL does not need additional cross-modal fusion module while fully introducing the language guidance. Furthermore, we analyze that the localization center for REC would help identify the to-be-segmented object region for RES to some extent. Inspired by this investigation, we design a multi-task head to accomplish collaborative predictions for these two sub-tasks. Extensive experiments conducted on several benchmark datasets comprehensively substantiate that our PLVL obviously outperforms the representative methods in both REC and RES tasks. https://github.com/jcwang0602/PLVL
- Abstract(参考訳): MTVG(Multi-task visual grounding)は、Referring Expression Comprehension(REC)とReferring Expression Segmentation(RES)の2つのサブタスクを含む。
既存の代表的アプローチは、主に視覚的および言語的モダリティの独立特徴抽出、相互モーダル相互作用モジュール、異なるサブタスクの独立予測ヘッドを含む3つのコア手順からなる研究パイプラインに従うのが一般的である。
この研究ラインには2つの制限があります。
1) 言語内容は,より効果的な視覚的特徴抽出を促進するために,視覚的バックボーン全体に完全に注入されておらず,追加のモーダル間相互作用モジュールが必要である。
2) REC タスクと RES タスクの関係は,より正確な出力の協調予測に有効ではない。
本稿では,視覚的モダリティ自体の本質的な特徴表現を微妙に掘り下げるだけでなく,言語関連視覚特徴の学習を支援するために言語情報を段階的に注入する,多タスク視覚基盤のためのプログレッシブ言語誘導型ビジュアルラーニングフレームワークPLVLを提案する。
このように、PLVLは言語ガイダンスを完全に導入しながら、追加のモーダル融合モジュールを必要としない。
さらに,REC の局所化センターが RES の包括対象領域をある程度特定するのに有効であることを解析した。
本研究では,これらの2つのサブタスクの協調予測を実現するために,マルチタスクヘッドを設計する。
いくつかのベンチマークデータセットで実施された大規模な実験では、PLVLがRECタスクとRESタスクの両方で明らかに代表的手法よりも優れていることが包括的に裏付けられている。
https://github.com/jcwang0602/PLVL
関連論文リスト
- Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.057386630831402]
大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文 参考訳(メタデータ) (2025-03-25T13:36:59Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。