論文の概要: QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.03206v1
- Date: Wed, 05 Nov 2025 05:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.345021
- Title: QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models
- Title(参考訳): QG-CoC:大規模マルチモーダルモデルのための質問ガイド型連鎖
- Authors: Kuei-Chun Kao, Hsu Tzu-Yin, Yunqi Hong, Ruochen Wang, Cho-Jui Hsieh,
- Abstract要約: 本稿では,複数の画像を扱う場合の視覚的情報処理について検討する。
そこで本研究では,新たなゼロショットプロンプト手法であるQG-CoC(QG-CoC)を提案する。
マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
- 参考スコア(独自算出の注目度): 50.51641024244313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) encounter two key issues in multi-image contexts: (1) a lack of fine-grained perception across disparate images, and (2) a diminished capability to effectively reason over and synthesize information from multiple visual inputs. However, while various prompting methods aim to describe visual content, many existing studies focus primarily on single-image settings or specific, constrained scenarios. This leaves a critical gap in understanding and addressing how MLLMs tackle more general and complex multi-image reasoning tasks. Thus, we first extensively investigate how current prompting methods perceive fine-grained visual details and process visual information when dealing with multiple images. Our findings reveal that existing prompting methods fall short in attending to needed clues and seamlessly integrating perception and reasoning. Inspired by the findings, we propose a new zero-shot prompting method, Question-Guided Chain-of-Captions (QG-CoC), a generalized prompting approach that effectively handles problems with an arbitrary number of images. We evaluate our method on various open-source and closed-source MLLMs for multi-image and single-image benchmarks. Experimental results indicate that QG-CoC demonstrates competitive performance across tasks and exhibits robust improvements in the challenging scenarios where existing prompting methods fail.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) は,画像間の微粒化認識の欠如と,複数の視覚的入力から情報を効果的に推論・合成する能力の低下の2つの問題に直面している。
しかしながら、様々なプロンプト手法は視覚的内容を記述することを目的としているが、既存の多くの研究は、主に単一画像の設定や、特定の制約のあるシナリオに焦点を当てている。
このことは、MLLMがより一般的で複雑なマルチイメージ推論タスクにどのように対処するかを理解する上で、重要なギャップを残している。
そこで,本稿ではまず,複数の画像を扱う場合の視覚的情報処理を,現在のプロンプト法がいかに細かな視覚的詳細を知覚するかを詳細に検討する。
以上の結果から,既存のプロンプト法は,必要な手がかりにたどり着かず,知覚と推論をシームレスに統合できることが判明した。
この結果に触発されて,任意の画像の問題を効果的に処理する一般化プロンプト手法である,新しいゼロショットプロンプト手法であるQG-CoCを提案する。
マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
実験結果から,QG-CoCはタスク間での競合性能を示し,既存のプロンプトメソッドが失敗する困難なシナリオにおいて堅牢な改善を示すことが示された。
関連論文リスト
- Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild [35.91285472401222]
軽量マルチモーダル大言語モデル(MLLM)に適した革新的学習・推論フレームワークを考案する。
我々の自己組織化アプローチはMLLMを組織的にガイドし、ターゲット問題に関連する視覚的手がかりに集中させ、幻覚を減らし、きめ細かい画像の詳細を記述できるモデルの能力を高める。
各種ベンチマーク実験により,SQの自己探索,ゼロショット視覚推論,幻覚緩和における顕著な能力を示す。
論文 参考訳(メタデータ) (2025-01-06T12:16:56Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。