論文の概要: ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.12418v1
- Date: Mon, 20 Jan 2025 13:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:29.641736
- Title: ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models
- Title(参考訳): ImageRef-VL:視覚言語モデルにおける文脈画像参照の実現
- Authors: Jingwei Yi, Junhao Yin, Ju Xu, Peng Bao, Yongliang Wang, Wei Fan, Hao Wang,
- Abstract要約: 会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。
本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。
実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
- 参考スコア(独自算出の注目度): 15.907584884933414
- License:
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable capabilities in understanding multimodal inputs and have been widely integrated into Retrieval-Augmented Generation (RAG) based conversational systems. While current VLM-powered chatbots can provide textual source references in their responses, they exhibit significant limitations in referencing contextually relevant images during conversations. In this paper, we introduce Contextual Image Reference -- the ability to appropriately reference relevant images from retrieval documents based on conversation context -- and systematically investigate VLMs' capability in this aspect. We conduct the first evaluation for contextual image referencing, comprising a dedicated testing dataset and evaluation metrics. Furthermore, we propose ImageRef-VL, a method that significantly enhances open-source VLMs' image referencing capabilities through instruction fine-tuning on a large-scale, manually curated multimodal conversation dataset. Experimental results demonstrate that ImageRef-VL not only outperforms proprietary models but also achieves an 88% performance improvement over state-of-the-art open-source VLMs in contextual image referencing tasks. Our code is available at https://github.com/bytedance/ImageRef-VL.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル入力の理解において顕著な能力を示し、Retrieval-Augmented Generation (RAG)ベースの会話システムに広く統合されている。
現在のVLMベースのチャットボットは、応答中にテキストソース参照を提供することができるが、会話中にコンテキストに関連のある画像を参照する際には、大きな制限がある。
本稿では,会話コンテキストに基づく検索文書からの関連画像の適切な参照機能であるContextual Image Referenceを紹介し,この点においてVLMの能力を体系的に検討する。
我々は、専用のテストデータセットと評価指標を含む文脈画像参照の最初の評価を行う。
さらに,大規模かつ手作業によるマルチモーダルな会話データセットの微調整により,オープンソースのVLM画像参照機能を大幅に向上させる手法であるImageRef-VLを提案する。
実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、文脈的画像参照タスクにおける最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
私たちのコードはhttps://github.com/bytedance/ImageRef-VLで利用可能です。
関連論文リスト
- VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。
既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。
我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:06:39Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文 参考訳(メタデータ) (2023-09-23T17:07:54Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。