論文の概要: BloomVQA: Assessing Hierarchical Multi-modal Comprehension
- arxiv url: http://arxiv.org/abs/2312.12716v1
- Date: Wed, 20 Dec 2023 02:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:15:23.911849
- Title: BloomVQA: Assessing Hierarchical Multi-modal Comprehension
- Title(参考訳): BloomVQA:階層型マルチモーダル理解の評価
- Authors: Yunye Gong, Robik Shrestha, Jared Claypoole, Michael Cogswell, Arijit
Ray, Christopher Kanan, Ajay Divakaran
- Abstract要約: 提案したBloomVQAデータセットは、階層的なグラフベースのビジュアルストーリー表現にマップできる。
本稿では,最先端のビジョン言語モデルに基づく一貫性指標に基づく評価と信頼性解析について述べる。
- 参考スコア(独自算出の注目度): 19.133251944065783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel VQA dataset, based on picture stories designed for
educating young children, that aims to facilitate comprehensive evaluation and
characterization of vision-language models on comprehension tasks. Unlike
current VQA datasets that often focus on fact-based memorization and simple
reasoning tasks without principled scientific grounding, we collect data
containing tasks reflecting different levels of comprehension and underlying
cognitive processes, as laid out in Bloom's Taxonomy, a classic framework
widely adopted in education research. The proposed BloomVQA dataset can be
mapped to a hierarchical graph-based representation of visual stories, enabling
automatic data augmentation and novel measures characterizing model consistency
across the underlying taxonomy. We demonstrate graded evaluation and
reliability analysis based on our proposed consistency metrics on
state-of-the-art vision-language models. Our results suggest that, while
current models achieve the most gain on low-level comprehension tasks, they
generally fall short on high-level tasks requiring more advanced comprehension
and cognitive skills, as 38.0% drop in VQA accuracy is observed comparing
lowest and highest level tasks. Furthermore, current models show consistency
patterns misaligned with human comprehension in various scenarios, suggesting
emergent structures of model behaviors.
- Abstract(参考訳): 幼児教育のための絵物語に基づく新しいvqaデータセットを提案し,理解課題における視覚言語モデルの包括的評価とキャラクタリゼーションを容易にすることを目的とした。
現在のvqaデータセットとは異なり、科学的な基礎づけのない事実に基づく記憶と単純な推論タスクにしばしば焦点をあてるが、我々は異なるレベルの理解と基礎となる認知過程を反映したタスクを含むデータを収集する。
提案されたbloomvqaデータセットは、ビジュアルストーリーの階層グラフベースの表現にマッピングすることができ、自動データ拡張と、基盤となる分類全体にわたるモデルの一貫性を特徴付ける新しい尺度を可能にする。
本稿では,最先端のビジョン言語モデルに基づく一貫性指標に基づく評価と信頼性解析について述べる。
以上の結果から,近年のモデルでは,低レベル理解タスクにおいて最も向上しているものの,VQAの精度が38.0%低下しているため,より高度な理解と認知スキルを必要とするハイレベルなタスクでは一般的に不足していることが示唆された。
さらに、現在のモデルでは、様々なシナリオにおける人間の理解と矛盾した一貫性パターンを示し、モデル行動の創発的構造を示唆している。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。