論文の概要: Visual Grounding with Multi-modal Conditional Adaptation
- arxiv url: http://arxiv.org/abs/2409.04999v1
- Date: Sun, 8 Sep 2024 07:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:40:09.937331
- Title: Visual Grounding with Multi-modal Conditional Adaptation
- Title(参考訳): マルチモーダル条件適応による視覚的グラウンドディング
- Authors: Ruilin Yao, Shengwu Xiong, Yichen Zhao, Yi Rong,
- Abstract要約: ビジュアルグラウンド(Visual Grounding)は、自然言語で指定されたオブジェクトを特定するタスクである。
重みを適応的に更新できるマルチモーダル条件適応(MMCA)を導入する。
MMCAは、大幅な改善と最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 14.177510695317098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding is the task of locating objects specified by natural language expressions. Existing methods extend generic object detection frameworks to tackle this task. They typically extract visual and textual features separately using independent visual and textual encoders, then fuse these features in a multi-modal decoder for final prediction. However, visual grounding presents unique challenges. It often involves locating objects with different text descriptions within the same image. Existing methods struggle with this task because the independent visual encoder produces identical visual features for the same image, limiting detection performance. Some recently approaches propose various language-guided visual encoders to address this issue, but they mostly rely solely on textual information and require sophisticated designs. In this paper, we introduce Multi-modal Conditional Adaptation (MMCA), which enables the visual encoder to adaptively update weights, directing its focus towards text-relevant regions. Specifically, we first integrate information from different modalities to obtain multi-modal embeddings. Then we utilize a set of weighting coefficients, which generated from the multimodal embeddings, to reorganize the weight update matrices and apply them to the visual encoder of the visual grounding model. Extensive experiments on four widely used datasets demonstrate that MMCA achieves significant improvements and state-of-the-art results. Ablation experiments further demonstrate the lightweight and efficiency of our method. Our source code is available at: https://github.com/Mr-Bigworth/MMCA.
- Abstract(参考訳): ビジュアルグラウンド(Visual Grounding)は、自然言語で指定されたオブジェクトを特定するタスクである。
既存のメソッドはこのタスクに取り組むためにジェネリックオブジェクト検出フレームワークを拡張する。
彼らは通常、独立した視覚的およびテキスト的エンコーダを使用して視覚的特徴とテキスト的特徴を別々に抽出し、最終的な予測のためにこれらの特徴をマルチモーダルデコーダに融合する。
しかし、視覚的な接地は独特な課題を呈している。
しばしば、同じ画像内で異なるテキスト記述を持つオブジェクトを配置する。
既存の手法では、独立視覚エンコーダが同じ画像に対して同一の視覚的特徴を生成し、検出性能を制限しているため、この課題に対処する。
近年のいくつかのアプローチでは、この問題に対処するために様々な言語誘導型ビジュアルエンコーダを提案するが、それらは主にテキスト情報にのみ依存し、洗練された設計を必要とする。
本稿では,多モード条件適応(MMCA)を導入し,視覚エンコーダが重みを適応的に更新し,テキスト関連領域に焦点を向ける。
具体的には、まず異なるモーダルからの情報を統合し、マルチモーダル埋め込みを得る。
次に,重み付け係数の集合を用いて,重み付け行列を再編成し,視覚的接地モデルの視覚的エンコーダに適用する。
広く使われている4つのデータセットに対する大規模な実験は、MMCAが大幅な改善と最先端の結果を達成していることを示している。
アブレーション実験により, 本手法の軽量化と効率性をさらに実証した。
私たちのソースコードは、https://github.com/Mr-Bigworth/MMCA.comで公開されています。
関連論文リスト
- AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。