論文の概要: Multimodal Reference Visual Grounding
- arxiv url: http://arxiv.org/abs/2504.02876v1
- Date: Wed, 02 Apr 2025 00:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 00:59:24.044621
- Title: Multimodal Reference Visual Grounding
- Title(参考訳): マルチモーダル参照ビジュアルグラウンド
- Authors: Yangxiao Lu, Ruosen Li, Liqiang Jing, Jikai Wang, Xinya Du, Yunhui Guo, Nicholas Ruozzi, Yu Xiang,
- Abstract要約: ビジュアルグラウンドティングは、言語表現に基づく画像からオブジェクトを検出することに焦点を当てている。
近年のLVLM(Large Vision-Language Models)は、視覚的接地性能が著しく向上している。
MRVG(Multimodal Reference Visual Grounding)と呼ばれる新しいタスクを導入する。
提案手法は,最先端のLVLMと比較して,視覚的グラウンドディング性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 24.047088603900644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding focuses on detecting objects from images based on language expressions. Recent Large Vision-Language Models (LVLMs) have significantly advanced visual grounding performance by training large models with large-scale datasets. However, the problem remains challenging, especially when similar objects appear in the input image. For example, an LVLM may not be able to differentiate Diet Coke and regular Coke in an image. In this case, if additional reference images of Diet Coke and regular Coke are available, it can help the visual grounding of similar objects. In this work, we introduce a new task named Multimodal Reference Visual Grounding (MRVG). In this task, a model has access to a set of reference images of objects in a database. Based on these reference images and a language expression, the model is required to detect a target object from a query image. We first introduce a new dataset to study the MRVG problem. Then we introduce a novel method, named MRVG-Net, to solve this visual grounding problem. We show that by efficiently using reference images with few-shot object detection and using Large Language Models (LLMs) for object matching, our method achieves superior visual grounding performance compared to the state-of-the-art LVLMs such as Qwen2.5-VL-7B. Our approach bridges the gap between few-shot detection and visual grounding, unlocking new capabilities for visual understanding. Project page with our code and dataset: https://irvlutd.github.io/MultiGrounding
- Abstract(参考訳): ビジュアルグラウンドティングは、言語表現に基づく画像からオブジェクトを検出することに焦点を当てている。
近年のLVLM(Large Vision-Language Models)では,大規模データセットを用いた大規模モデルのトレーニングにより,視覚的グラウンドディング性能が著しく向上している。
しかし、特に類似した物体が入力画像に現れる場合、この問題は依然として困難なままである。
例えば、LVLMは、イメージ内でダイエットコークとレギュラーコークを区別できないかもしれない。
この場合、ダイエットコークスとレギュラーコークスの追加参照画像が利用可能であれば、類似したオブジェクトを視覚的にグラウンド化するのに役立ちます。
本稿では,MRVG(Multimodal Reference Visual Grounding)という新しいタスクを紹介する。
このタスクでは、モデルがデータベース内のオブジェクトの参照イメージのセットにアクセスする。
これらの参照画像と言語表現に基づいて、クエリ画像から対象物を検出する必要がある。
MRVG問題を研究するための新しいデータセットを最初に紹介する。
次に,この視覚的接地問題を解決するために,MRVG-Netという新しい手法を提案する。
オブジェクトマッチングにLarge Language Models (LLMs) を用いることで,Qwen2.5-VL-7Bのような最先端のLVLMに比べて,視覚的グラウンドディング性能が優れていることを示す。
私たちのアプローチは、数ショット検出と視覚的接地の間のギャップを埋め、視覚的理解のための新しい機能を解放します。
コードとデータセットを使ったプロジェクトページ:https://irvlutd.github.io/MultiGrounding
関連論文リスト
- ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Targeted Visual Prompting for Medical Visual Question Answering [3.600327818936722]
マルチモーダル・大規模言語モデル(MLLM)は、古典的なモデルアーキテクチャの代替として登場した。
単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。
本稿では,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
論文 参考訳(メタデータ) (2024-08-06T08:58:20Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (2024-04-25T07:29:17Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。
本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。
WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文 参考訳(メタデータ) (2022-11-09T13:27:50Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Learning to Ground Visual Objects for Visual Dialog [26.21407651331964]
視覚対話のための視覚オブジェクトを学習する新しい手法を提案する。
視覚的対象に対する後続分布は、文脈(歴史と疑問)と答えの両方から推測される。
文脈のみから推定される事前分布を用いて後部分布を近似し、回答なしに適切な視覚オブジェクトをグラウンド化できるようにする。
論文 参考訳(メタデータ) (2021-09-13T14:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。