論文の概要: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2402.18409v2
- Date: Thu, 29 Feb 2024 13:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:24:31.285570
- Title: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク
- Authors: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
- Abstract要約: リッチなセマンティクスを持つ画像を用いて,LVLMの高レベル認知能力を評価するための新しい評価ベンチマークを提案する。
8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 33.15046880650744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs), despite their recent success, are
hardly comprehensively tested for their cognitive abilities. Inspired by the
prevalent use of the "Cookie Theft" task in human cognition test, we propose a
novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs
using images with rich semantics. It defines eight reasoning capabilities and
consists of an image description task and a visual question answering task. Our
evaluation on well-known LVLMs shows that there is still a large gap in
cognitive ability between LVLMs and humans.
- Abstract(参考訳): 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。
人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。
8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
関連論文リスト
- MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? [20.42118033193383]
LVLM(Large Visual-Language Models)は、多段階の視覚知覚を行う能力について未検討のままである。
MVP-Benchは、LVLMの低レベルと高レベルの両方の視覚的知覚を体系的に評価する最初のビジュアル言語ベンチマークである。
MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:47:57Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View [26.52297849056656]
視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。
本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T14:22:03Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。