論文の概要: Language Adaptive Weight Generation for Multi-task Visual Grounding
- arxiv url: http://arxiv.org/abs/2306.04652v1
- Date: Tue, 6 Jun 2023 08:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:21:28.305590
- Title: Language Adaptive Weight Generation for Multi-task Visual Grounding
- Title(参考訳): マルチタスク視覚接地のための言語適応重み生成
- Authors: Wei Su, Peihan Miao, Huanzhang Dou, Gaoang Wang, Liang Qiao, Zheyang
Li, and Xi Li
- Abstract要約: VG-LAWは、Language Adaptive Weightsに基づいた視覚的グラウンドティングフレームワークである。
視覚バックボーンは、様々な表現のために生成される動的重みを通じて、発現特異的な特徴抽出器として機能する。
VG-LAWはクロスモーダル相互作用のための追加モジュールを必要としない。
- 参考スコア(独自算出の注目度): 17.88107369194295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the impressive performance in visual grounding, the prevailing
approaches usually exploit the visual backbone in a passive way, i.e., the
visual backbone extracts features with fixed weights without expression-related
hints. The passive perception may lead to mismatches (e.g., redundant and
missing), limiting further performance improvement. Ideally, the visual
backbone should actively extract visual features since the expressions already
provide the blueprint of desired visual features. The active perception can
take expressions as priors to extract relevant visual features, which can
effectively alleviate the mismatches. Inspired by this, we propose an active
perception Visual Grounding framework based on Language Adaptive Weights,
called VG-LAW. The visual backbone serves as an expression-specific feature
extractor through dynamic weights generated for various expressions. Benefiting
from the specific and relevant visual features extracted from the
language-aware visual backbone, VG-LAW does not require additional modules for
cross-modal interaction. Along with a neat multi-task head, VG-LAW can be
competent in referring expression comprehension and segmentation jointly.
Extensive experiments on four representative datasets, i.e., RefCOCO, RefCOCO+,
RefCOCOg, and ReferItGame, validate the effectiveness of the proposed framework
and demonstrate state-of-the-art performance.
- Abstract(参考訳): 視覚的接地における印象的なパフォーマンスにもかかわらず、一般的に一般的なアプローチは視覚的背骨を受動的に利用し、すなわち視覚的背骨は、表現に関連するヒントなしで、固定重量で特徴を抽出する。
受動的知覚は不一致(例えば冗長と欠落)を生じさせ、さらなるパフォーマンス改善を阻害する可能性がある。
理想的には、表現はすでに所望の視覚的特徴の青写真を提供しているため、ビジュアルバックボーンは積極的にビジュアル機能を抽出すべきである。
アクティブな知覚は、関係する視覚的特徴を抽出する先行表現を採り入れ、ミスマッチを効果的に緩和することができる。
そこで我々は,VG-LAWと呼ばれる言語適応重みに基づく視覚的接地フレームワークを提案する。
視覚的なバックボーンは、様々な表現のために生成される動的重みを通して表現特有の特徴抽出器として機能する。
言語対応のビジュアルバックボーンから抽出された特定の視覚機能と関連する視覚機能から、vg-lawは、クロスモーダルインタラクションのための追加モジュールを必要としない。
巧妙なマルチタスクヘッドとともに、VG-LAWは、表現理解とセグメンテーションを共同で参照する能力を持つ。
RefCOCO、RefCOCO+、RefCOCOg、ReferItGameの4つの代表的なデータセットに対する大規模な実験は、提案フレームワークの有効性を検証し、最先端のパフォーマンスを示す。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution [26.523051615516742]
本稿では,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案手法は,3つの一般的な視覚的グラウンドデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-06-18T04:26:39Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。