Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering

論文の概要: A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering

arxiv url: http://arxiv.org/abs/2311.07536v3
Date: Sat, 24 Aug 2024 09:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 00:57:20.329316
Title: A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering
Title（参考訳）: 知識集中型視覚質問応答におけるGPT-4Vの総合的評価
Authors: Yunxin Li, Longyue Wang, Baotian Hu, Xinyu Chen, Wanqi Zhong, Chenyang Lyu, Wei Wang, Min Zhang,
Abstract要約: マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供しているしかし、真の課題は知識集約型VQAタスクの領域にある。 1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
参考スコア（独自算出の注目度）: 53.70661720114377
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The emergence of multimodal large models (MLMs) has significantly advanced the field of visual understanding, offering remarkable capabilities in the realm of visual question answering (VQA). Yet, the true challenge lies in the domain of knowledge-intensive VQA tasks, which necessitate not just recognition of visual elements, but also a deep comprehension of the visual information in conjunction with a vast repository of learned knowledge. To uncover such capabilities of MLMs, particularly the newly introduced GPT-4V and Gemini, we provide an in-depth evaluation from three perspectives: 1) Commonsense Knowledge, which assesses how well models can understand visual cues and connect to general knowledge; 2) Fine-grained World Knowledge, which tests the model's skill in reasoning out specific knowledge from images, showcasing their proficiency across various specialized fields; 3) Comprehensive Knowledge with Decision-making Rationales, which examines model's capability to provide logical explanations for its inference, facilitating a deeper analysis from the interpretability perspective. Additionally, we utilize a visual knowledge-enhanced training strategy and multimodal retrieval-augmented generation approach to enhance MLMs, highlighting the future need for advancements in this research direction. Extensive experiments indicate that: a) GPT-4V demonstrates enhanced explanation generation when using composite images as few-shots; b) GPT-4V and other MLMs produce severe hallucinations when dealing with world knowledge; c) Visual knowledge enhanced training and prompting technicals present potential to improve performance. Codes: https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper
Abstract（参考訳）: マルチモーダル大モデル(MLM)の出現は、視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域において顕著な能力を提供している。しかし、真の課題は知識集約型VQAタスクの領域にある。これは視覚要素の認識だけでなく、学習した知識の膨大なリポジトリとともに視覚情報の深い理解を必要とする。 MLM、特に新たに導入されたGPT-4VとGeminiの機能を明らかにするために、3つの視点から詳細な評価を行う。 1) 共通知識(Commonsense Knowledge)とは,モデルが視覚的手がかりをいかに理解し,一般知識に結び付けるかを評価すること。 2 細かな世界知識は、画像から特定の知識を推論し、様々な専門分野においてその習熟度を示すためのモデルの技能を検査する。 3) モデルが推論に論理的説明を与える能力を検証し, 解釈可能性の観点からより深い分析を容易にする。さらに、視覚的知識強化トレーニング戦略とマルチモーダル検索強化ジェネレーションアプローチを用いて、MDMの強化を行い、今後の研究方向性の進歩の必要性を浮き彫りにしている。大規模な実験は次のように示している。 a)GPT-4Vは、合成画像を少数ショットとして使用する際の説明生成の強化を示す。 b) GPT-4Vその他のMLMは,世界知識を扱う際に,深刻な幻覚を生じさせる。 c) 視覚的知識により訓練が強化され、技術が性能を向上させる可能性があること。コード:https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper

関連論文リスト

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (2024-10-10T17:55:02Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文参考訳（メタデータ） (2024-04-06T05:59:02Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-02-21T06:34:46Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models [39.554274096542244]
KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
論文参考訳（メタデータ） (2023-10-15T04:00:36Z)
A survey on knowledge-enhanced multimodal learning [1.8591405259852054]
マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。 VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
論文参考訳（メタデータ） (2022-11-19T14:00:50Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。