論文の概要: Good Questions Help Zero-Shot Image Reasoning
- arxiv url: http://arxiv.org/abs/2312.01598v2
- Date: Sat, 9 Dec 2023 00:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:05:18.210415
- Title: Good Questions Help Zero-Shot Image Reasoning
- Title(参考訳): 良い質問はゼロショット画像推論に役立つ
- Authors: Kaiwen Yang, Tao Shen, Xinmei Tian, Xiubo Geng, Chongyang Tao, Dacheng
Tao, Tianyi Zhou
- Abstract要約: 質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 110.1671684828904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning the recent large language models (LLMs) with computer vision models
leads to large vision-language models (LVLMs), which have paved the way for
zero-shot image reasoning tasks. However, LVLMs are usually trained on short
high-level captions only referring to sparse focus regions in images. Such a
``tunnel vision'' limits LVLMs to exploring other relevant contexts in complex
scenes. To address this challenge, we introduce Question-Driven Visual
Exploration (QVix), a novel prompting strategy that enhances the exploratory
capabilities of LVLMs in zero-shot reasoning tasks. QVix leverages LLMs' strong
language prior to generate input-exploratory questions with more details than
the original query, guiding LVLMs to explore visual content more
comprehensively and uncover subtle or peripheral details. QVix enables a wider
exploration of visual scenes, improving the LVLMs' reasoning accuracy and depth
in tasks such as visual question answering and visual entailment. Our
evaluations on various challenging zero-shot vision-language benchmarks,
including ScienceQA and fine-grained visual classification, demonstrate that
QVix significantly outperforms existing methods, highlighting its effectiveness
in bridging the gap between complex visual data and LVLMs' exploratory
abilities.
- Abstract(参考訳): コンピュータビジョンモデルを用いた最近の大規模言語モデル(LLM)の調整は、ゼロショット画像推論タスクの道を開いた大型視覚言語モデル(LVLM)につながる。
しかしながら、LVLMは通常、画像内のスパースフォーカス領域のみを参照して、短い高レベルのキャプションで訓練される。
このような‘トンネルビジョン’は、複雑なシーンで他の関連するコンテキストを探索するLVLMを制限する。
この課題に対処するために、ゼロショット推論タスクにおけるLVLMの探索能力を高める新しいプロンプト戦略であるQVix(Q-Driven Visual Exploration)を導入する。
QVixは、入力探索的な質問を生成する前にLLMの強い言語を活用し、LVLMに視覚的コンテンツをより包括的に探索させ、微妙で周辺的な詳細を明らかにする。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善する。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,複雑な視覚データとLVLMの探索能力のギャップを埋める上でのQVixの有効性を強調した。
関連論文リスト
- Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis [6.704529554100875]
視覚言語モデル(VLM)は、実世界の視覚的質問応答ベンチマークにおいて、印象的なゼロショットと少数ショットのパフォーマンスを示した。
VLMの視覚的推論性能が世界的知識によるものなのか、それとも実際の視覚的推論能力によるものなのかは不明だ。
論文 参考訳(メタデータ) (2024-08-27T14:43:54Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。