論文の概要: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2402.18409v1
- Date: Wed, 28 Feb 2024 15:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:39:54.414137
- Title: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク
- Authors: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
- Abstract要約: リッチなセマンティクスを持つ画像を用いて,LVLMの高レベル認知能力を評価するための新しい評価ベンチマークを提案する。
8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 33.15046880650744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs), despite their recent success, are
hardly comprehensively tested for their cognitive abilities. Inspired by the
prevalent use of the "Cookie Theft" task in human cognition test, we propose a
novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs
using images with rich semantics. It defines eight reasoning capabilities and
consists of an image description task and a visual question answering task. Our
evaluation on well-known LVLMs shows that there is still a large gap in
cognitive ability between LVLMs and humans.
- Abstract(参考訳): 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。
人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。
8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
関連論文リスト
- Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
textbfVoTは、LLMの空間的推論を、それらの推論トレースを可視化することによって引き起こすことを目的としている。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Evaluating Image Review Ability of Vision Language Models [25.846728716526766]
本稿では,大規模視覚言語モデル(LVLM)を用いて画像のレビューテキストを生成する方法について検討する。
LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性が強調されている。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times
and Location Reasoning [23.33600235294496]
VLM(Vision-Language Models)は、人間としての常識的な知識を推論できると期待されている。
これにより、視覚的な手がかりに基づいて、Vision-Language Modelsは、時間と位置の推論において、人間の能力を達成し、さらに上回ることができるのだろうか、と疑問に思う。
本稿では,2段階の認識空間と推論空間探索タスクを提案する。
論文 参考訳(メタデータ) (2023-07-12T13:46:28Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。