論文の概要: A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2311.07536v1
- Date: Mon, 13 Nov 2023 18:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:10:19.296528
- Title: A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering
- Title(参考訳): 知識集中型視覚質問応答におけるGPT-4Vの総合的評価
- Authors: Yunxin Li, Longyue Wang, Baotian Hu, Xinyu Chen, Wanqi Zhong, Chenyang
Lyu, Min Zhang
- Abstract要約: マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
- 参考スコア(独自算出の注目度): 56.13406327277984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emergence of multimodal large models (MLMs) has significantly advanced
the field of visual understanding, offering remarkable capabilities in the
realm of visual question answering (VQA). Yet, the true challenge lies in the
domain of knowledge-intensive VQA tasks, which necessitate not just recognition
of visual elements, but also a deep comprehension of the visual information in
conjunction with a vast repository of learned knowledge. To uncover such
capabilities of MLMs, particularly the newly introduced GPT-4V, we provide an
in-depth evaluation from three perspectives: 1) Commonsense Knowledge, which
assesses how well models can understand visual cues and connect to general
knowledge; 2) Fine-grained World Knowledge, which tests the model's skill in
reasoning out specific knowledge from images, showcasing their proficiency
across various specialized fields; 3) Comprehensive Knowledge with
Decision-making Rationales, which examines model's capability to provide
logical explanations for its inference, facilitating a deeper analysis from the
interpretability perspective. Extensive experiments indicate that GPT-4V
achieves SOTA performance on above three tasks. Interestingly, we find that: a)
GPT-4V demonstrates enhanced reasoning and explanation when using composite
images as few-shot; b) GPT-4V produces severe hallucinations when dealing with
world knowledge, highlighting the future need for advancements in this research
direction.
- Abstract(参考訳): マルチモーダル大モデル(MLM)の出現は、視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域において顕著な能力を提供している。
しかし、真の課題は知識集約型VQAタスクの領域にある。これは視覚要素の認識だけでなく、学習した知識の膨大なリポジトリとともに視覚情報の深い理解を必要とする。
MLM、特に新たに導入されたGPT-4Vの機能を明らかにするために、3つの視点から詳細な評価を行う。
1) モデルが視覚的な手がかりをいかによく理解し、一般的な知識と結びつくかを評価する常識知識
2) 画像から特定の知識を推論するモデルの技能をテストする細かな世界知識は,様々な専門分野においてその熟練度を示す。
3) モデルが推論の論理的説明を提供する能力を検討する意思決定理論を用いた包括的知識は,解釈可能性の観点からより深い分析を促進する。
GPT-4Vは3つ以上のタスクでSOTA性能を達成する。
興味深いことに、私たちはそれを見つけました。
a) gpt-4vは,複合画像を用いた場合の推論及び説明の強化を示す。
b) GPT-4Vは、世界知識を扱う際に深刻な幻覚を生じさせ、この研究の方向性における進歩の必要性を浮き彫りにする。
関連論文リスト
- MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-02-21T06:34:46Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models [39.554274096542244]
KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。
我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。
我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
論文 参考訳(メタデータ) (2023-10-15T04:00:36Z) - A survey on knowledge-enhanced multimodal learning [1.8591405259852054]
マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。
特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。
VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
論文 参考訳(メタデータ) (2022-11-19T14:00:50Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。