論文の概要: NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.10380v1
- Date: Mon, 15 Jul 2024 01:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:30:30.535705
- Title: NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models
- Title(参考訳): NTSEBENCH:視覚言語モデルのための認知推論ベンチマーク
- Authors: Pranshu Pandya, Agney S Talwarr, Vatsal Gupta, Tushar Kataria, Vivek Gupta, Dan Roth,
- Abstract要約: 我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために,NTSEBenchという新しいデータセットを導入した。
このデータセットは、インドで実施されているNTSE試験から採取された26のカテゴリで合計4,642枚の画像からなる2,728の多重選択質問からなる。
- 参考スコア(独自算出の注目度): 43.98941258781775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive textual and visual reasoning tasks, such as puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. While LLMs and VLMs, through extensive training on large amounts of human-curated data, have attained a high level of pseudo-human intelligence in some common sense reasoning tasks, they still struggle with more complex reasoning tasks that require cognitive understanding. In this work, we introduce a new dataset, NTSEBench, designed to evaluate the cognitive multi-modal reasoning and problem-solving skills of large models. The dataset comprises 2,728 multiple-choice questions comprising of a total of 4,642 images across 26 categories sampled from the NTSE examination conducted nationwide in India, featuring both visual and textual general aptitude questions that do not rely on rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities (text and images) in the dataset instances.
- Abstract(参考訳): パズル、シリーズ、アナロジーなどの認知的テキストおよび視覚的推論タスクは、素早く推論し、解読し、パターンをテキストと空間の両方で評価する能力を要求する。
LLMとVLMは、大量の人間計算データに対する広範な訓練を通じて、ある種の常識推論タスクにおいて、高いレベルの擬人知能を達成する一方で、認知的理解を必要とするより複雑な推論タスクに苦戦している。
本研究では,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために,NTSEBenchという新しいデータセットを導入する。
このデータセットは、インドで全国で実施されているNTSE試験から採取された26のカテゴリで合計4,642の画像からなる2,728の多重選択質問からなる。
我々は,最新のLLMとVLMを用いて,データセットのベースラインを確立する。
オープンソースモデルとプロプライエティモデルの比較を容易にするため,データセットインスタンスの異なるモダリティ(テキストと画像)を扱うための4つの異なるモデリング手法を提案する。
関連論文リスト
- SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [26.839159541015597]
空間的推論の様々な側面をカバーする新しいベンチマークを開発する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
我々は,空間知性を改善するためのマルチモーダルモデルの開発について報告する。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs [11.19928977117624]
自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。
近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。
これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。
本稿では,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を,チャート理解と推論のタスクに対して行った。
論文 参考訳(メタデータ) (2024-06-01T01:43:30Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Designing Multimodal Datasets for NLP Challenges [5.874143210792986]
会話や推論において人間が持つ言語能力や認知能力を反映した課題や課題を特定する。
マルチモーダルレシピコレクションに対するコンピテンスベースの理解をテストするために設計された診断データセットであるRecipe-to-Video Questions (R2VQ)について述べる。
論文 参考訳(メタデータ) (2021-05-12T23:02:46Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。