論文の概要: NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.10380v2
- Date: Sun, 05 Jan 2025 03:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:03.151316
- Title: NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models
- Title(参考訳): NTSEBENCH:視覚言語モデルのための認知推論ベンチマーク
- Authors: Pranshu Pandya, Vatsal Gupta, Agney S Talwarr, Tushar Kataria, Dan Roth, Vivek Gupta,
- Abstract要約: 我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために設計された新しいデータセットNTSEBenchを紹介する。
データセットには2728の質問があり、合計4,642の画像が26種類に分類されている。
これらの質問は、インドのNTSE試験から引き出され、視覚的およびテキスト的一般適性の問題が混在している。
- 参考スコア(独自算出の注目度): 43.98941258781775
- License:
- Abstract: Cognitive textual and visual reasoning tasks, including puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. Due to extensive training on vast amounts of human-curated data, LLMs and VLMs excel in common-sense reasoning tasks, however still struggle with more complex reasoning that demands deeper cognitive understanding. We introduce NTSEBench, a new dataset designed to evaluate cognitive multi-modal reasoning and problem-solving skills of large models. The dataset contains 2728 multiple-choice questions, accompanied by a total of 4,642 images, categorized into 26 different types. These questions are drawn from the nationwide NTSE examination in India and feature a mix of visual and textual general aptitude challenges, designed to assess intelligence and critical thinking skills beyond mere rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities -- text and images -- in the dataset instances.
- Abstract(参考訳): パズル、シリーズ、アナロジーを含む認知的テキストおよび視覚的推論タスクは、テキストと空間の両方のパターンを素早く推論し、解読し、評価する能力を要求する。
膨大な量の人為的なデータに対する広範なトレーニングのため、LLMとVLMは常識的な推論タスクに優れるが、深い認知的理解を必要とするより複雑な推論に苦しむ。
我々は,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために設計された新しいデータセットNTSEBenchを紹介する。
データセットには2728の質問があり、合計4,642の画像が26種類に分類されている。
これらの質問は、インドのNTSE試験から引き出され、単なるロート学習以上の知性と批判的思考スキルを評価するために設計された、視覚的およびテキスト的一般適性課題が混在している。
我々は,最新のLLMとVLMを用いて,データセットのベースラインを確立する。
オープンソースモデルとプロプライエティモデルの比較を容易にするため、データセットインスタンスで異なるモダリティ(テキストと画像)を扱うための4つの異なるモデリング戦略を提案する。
関連論文リスト
- Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison [0.0]
VQA(Visual Question Answering)は、コンピュータビジョンと自然言語処理の交差において重要なタスクとして登場した。
本稿では,ABC-CNN,KICNLE,Masked Vision and Language Modeling,BLIP-2,OFAの5種類の先進VQAモデルの比較検討を行った。
論文 参考訳(メタデータ) (2025-02-20T18:45:00Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。