論文の概要: Good Questions Help Zero-Shot Image Reasoning
- arxiv url: http://arxiv.org/abs/2312.01598v2
- Date: Sat, 9 Dec 2023 00:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:05:18.210415
- Title: Good Questions Help Zero-Shot Image Reasoning
- Title(参考訳): 良い質問はゼロショット画像推論に役立つ
- Authors: Kaiwen Yang, Tao Shen, Xinmei Tian, Xiubo Geng, Chongyang Tao, Dacheng
Tao, Tianyi Zhou
- Abstract要約: 質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 110.1671684828904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning the recent large language models (LLMs) with computer vision models
leads to large vision-language models (LVLMs), which have paved the way for
zero-shot image reasoning tasks. However, LVLMs are usually trained on short
high-level captions only referring to sparse focus regions in images. Such a
``tunnel vision'' limits LVLMs to exploring other relevant contexts in complex
scenes. To address this challenge, we introduce Question-Driven Visual
Exploration (QVix), a novel prompting strategy that enhances the exploratory
capabilities of LVLMs in zero-shot reasoning tasks. QVix leverages LLMs' strong
language prior to generate input-exploratory questions with more details than
the original query, guiding LVLMs to explore visual content more
comprehensively and uncover subtle or peripheral details. QVix enables a wider
exploration of visual scenes, improving the LVLMs' reasoning accuracy and depth
in tasks such as visual question answering and visual entailment. Our
evaluations on various challenging zero-shot vision-language benchmarks,
including ScienceQA and fine-grained visual classification, demonstrate that
QVix significantly outperforms existing methods, highlighting its effectiveness
in bridging the gap between complex visual data and LVLMs' exploratory
abilities.
- Abstract(参考訳): コンピュータビジョンモデルを用いた最近の大規模言語モデル(LLM)の調整は、ゼロショット画像推論タスクの道を開いた大型視覚言語モデル(LVLM)につながる。
しかしながら、LVLMは通常、画像内のスパースフォーカス領域のみを参照して、短い高レベルのキャプションで訓練される。
このような‘トンネルビジョン’は、複雑なシーンで他の関連するコンテキストを探索するLVLMを制限する。
この課題に対処するために、ゼロショット推論タスクにおけるLVLMの探索能力を高める新しいプロンプト戦略であるQVix(Q-Driven Visual Exploration)を導入する。
QVixは、入力探索的な質問を生成する前にLLMの強い言語を活用し、LVLMに視覚的コンテンツをより包括的に探索させ、微妙で周辺的な詳細を明らかにする。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善する。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,複雑な視覚データとLVLMの探索能力のギャップを埋める上でのQVixの有効性を強調した。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - CoLLaVO: Crayon Large Language and Vision mOdel [46.08081488234337]
現在のビジョン言語モデルが本当に品質の高いオブジェクトレベルの画像理解能力を持っているかどうかは、まだ解明されていない。
その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。
オブジェクトレベルの画像理解を強化するため,Crayon Large Language and Vision mOdel(CoLLaVO)を提案する。
本稿では,視覚的指導指導中に,オブジェクトレベルのイメージ理解を忘れずに維持するためのDual QLoRAの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-02-17T11:03:02Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with
Large Language Models [30.065805195156994]
視覚コモンセンス推論(VCR)のための事前学習型視覚言語モデル(VLM)と大規模言語モデル(LLM)の相乗的機能について検討する。
ViCor と名付けられた本手法では,事前学習した LLM が問題分類器として機能し,問題カテゴリを解析する。
2つのVCRベンチマークデータセット上でのフレームワークの評価を行い、ドメイン内教師あり微調整を必要としない他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。