論文の概要: Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal
Distillation
- arxiv url: http://arxiv.org/abs/2312.17648v1
- Date: Fri, 29 Dec 2023 15:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 09:19:12.620631
- Title: Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal
Distillation
- Title(参考訳): Effecitve クロスモーダル蒸留による視覚接地のためのブリジングモダリティギャップ
- Authors: Jiaxi Wang, Wenhui Hu, Xueyang Liu, Beihu Wu, Yuting Qiu, YingYing Cai
- Abstract要約: 本稿では,Visual Grounding フレームワークのためのエンパワーディング事前学習モデルを提案する。
マルチモーダルな事前学習モデルを蒸留し、視覚的接地タスクを誘導する。
本手法は最先端の手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 2.2296344278106695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding aims to align visual information of specific regions of
images with corresponding natural language expressions. Current visual
grounding methods leverage pre-trained visual and language backbones separately
to obtain visual features and linguistic features. Although these two types of
features are then fused via delicately designed networks, the heterogeneity of
the features makes them inapplicable for multi-modal reasoning. This problem
arises from the domain gap between the single-modal pre-training backbone used
in current visual grounding methods, which can hardly be overcome by the
traditional end-to-end training method. To alleviate this, our work proposes an
Empowering pre-trained model for Visual Grounding (EpmVG) framework, which
distills a multimodal pre-trained model to guide the visual grounding task.
EpmVG is based on a novel cross-modal distillation mechanism, which can
effectively introduce the consistency information of images and texts in the
pre-trained model, to reduce the domain gap existing in the backbone networks,
thereby improving the performance of the model in the visual grounding task.
Extensive experiments are carried out on five conventionally used datasets, and
results demonstrate that our method achieves better performance than
state-of-the-art methods.
- Abstract(参考訳): ビジュアルグラウンドティングは、画像の特定の領域の視覚情報を対応する自然言語表現と整合させることを目的としている。
現在の視覚接地法は、事前訓練された視覚と言語バックボーンを別々に活用し、視覚の特徴と言語的特徴を得る。
これら2つの機能はデリケートに設計されたネットワークを介して融合されるが、機能の多様性によってマルチモーダル推論には適用できない。
この問題は、現在の視覚的接地法で使用される単一モード事前学習バックボーン間のドメインギャップから生じており、従来のエンドツーエンドのトレーニング手法では克服できない。
そこで本研究では,マルチモーダル事前学習モデルを蒸留し,視覚的接地作業の指導を行うEmpowering Pre-trained Model for Visual Grounding (EpmVG)フレームワークを提案する。
EpmVGは、トレーニング済みモデルにおける画像とテキストの一貫性情報を効果的に導入し、バックボーンネットワークに存在するドメインギャップを低減し、視覚的グラウンド処理におけるモデルの性能を向上させる、新しいクロスモーダル蒸留機構に基づいている。
従来の5つのデータセットに対して大規模な実験を行い,本手法が最先端手法よりも優れた性能を発揮することを示す。
関連論文リスト
- HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(Hi LoRA)パラダイムで構成されている。
Hi LoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。