論文の概要: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2402.18409v2
- Date: Thu, 29 Feb 2024 13:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:24:31.285570
- Title: A Cognitive Evaluation Benchmark of Image Reasoning and Description for
Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク
- Authors: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
- Abstract要約: リッチなセマンティクスを持つ画像を用いて,LVLMの高レベル認知能力を評価するための新しい評価ベンチマークを提案する。
8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 33.15046880650744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs), despite their recent success, are
hardly comprehensively tested for their cognitive abilities. Inspired by the
prevalent use of the "Cookie Theft" task in human cognition test, we propose a
novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs
using images with rich semantics. It defines eight reasoning capabilities and
consists of an image description task and a visual question answering task. Our
evaluation on well-known LVLMs shows that there is still a large gap in
cognitive ability between LVLMs and humans.
- Abstract(参考訳): 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。
人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。
8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
関連論文リスト
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark [46.46727031818962]
マルチモーダル大規模言語モデル(MLLM)の評価において,テキストリッチな視覚シーンの理解が焦点となっている。
テキストリッチな視覚シーンに対するマルチモーダル・ベンチマークを導入し、視覚推論とコンテンツ作成タスク(MCTBench)を通してMLLMの認知能力を評価する。
MCTBenchは、MLLMの認知能力と知覚能力の両方を一貫した比較を保証するために、いくつかの知覚タスクを組み込んでいる。
論文 参考訳(メタデータ) (2024-10-15T12:13:42Z) - MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? [20.42118033193383]
LVLM(Large Visual-Language Models)は、多段階の視覚知覚を行う能力について未検討のままである。
MVP-Benchは、LVLMの低レベルと高レベルの両方の視覚的知覚を体系的に評価する最初のビジュアル言語ベンチマークである。
MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:47:57Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View [26.52297849056656]
視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。
本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T14:22:03Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。