Fugu-MT 論文翻訳(概要): A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models

論文の概要: A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models

arxiv url: http://arxiv.org/abs/2402.18409v1
Date: Wed, 28 Feb 2024 15:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 14:39:54.414137
Title: A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models
Title（参考訳）: 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク
Authors: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
Abstract要約: リッチなセマンティクスを持つ画像を用いて,LVLMの高レベル認知能力を評価するための新しい評価ベンチマークを提案する。 8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。 LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
参考スコア（独自算出の注目度）: 33.15046880650744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision Language Models (LVLMs), despite their recent success, are hardly comprehensively tested for their cognitive abilities. Inspired by the prevalent use of the "Cookie Theft" task in human cognition test, we propose a novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs using images with rich semantics. It defines eight reasoning capabilities and consists of an image description task and a visual question answering task. Our evaluation on well-known LVLMs shows that there is still a large gap in cognitive ability between LVLMs and humans.
Abstract（参考訳）: 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。 8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。 LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images [36.44183173680125]
MLLM(Multimodal Large Language Models)は、画像の識別対象に何があるのかを答える能力を持っているが、人間の観察者に対してイメージがどのように感じるかを理解する能力に欠けることが多い。このギャップは、イメージを記憶しやすく、面白く、審美的に喜ばせ、感情的に刺激的になるような、主観的な認知特性を考える際に最も顕著である。画像認識特性のMLLMを評価するための総合的なベンチマークであるCogIP-Benchを紹介する。
論文参考訳（メタデータ） (2025-11-27T23:30:24Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Visual Language Models show widespread visual deficits on neuropsychological tests [0.0]
神経心理学のツールキットを用いて3つの最先端ビジュアル言語モデル(VLM)の能力を評価する。臨床的に有意と思われる低位・中位の視覚能力に広範な欠陥がみられた。これらの選択的欠陥は、検証されたテストバッテリーを通してプロファイルされ、人間には明示的な訓練を必要としない基礎的な視覚概念を発達させることなく、人工知能が複雑な物体認識を達成できることを示唆している。
論文参考訳（メタデータ） (2025-04-15T01:04:56Z)
Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T07:29:03Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? [20.42118033193383]
LVLM(Large Visual-Language Models)は、多段階の視覚知覚を行う能力について未検討のままである。 MVP-Benchは、LVLMの低レベルと高レベルの両方の視覚的知覚を体系的に評価する最初のビジュアル言語ベンチマークである。 MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
論文参考訳（メタデータ） (2024-10-06T03:47:57Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View [26.52297849056656]
視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
論文参考訳（メタデータ） (2024-05-27T14:22:03Z)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文参考訳（メタデータ） (2024-05-24T16:21:59Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。