論文の概要: FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts
- arxiv url: http://arxiv.org/abs/2406.19237v2
- Date: Fri, 28 Jun 2024 05:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:50:27.696885
- Title: FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts
- Title(参考訳): FlowVQA:フローチャートを用いた視覚質問応答におけるマルチモーダル論理のマッピング
- Authors: Shubhankar Singh, Purvi Chaurasia, Yerram Varun, Pranshu Pandya, Vatsal Gupta, Vivek Gupta, Dan Roth,
- Abstract要約: FlowVQAは、フローチャートをビジュアルコンテキストとして推論することで、視覚的質問応答型マルチモーダル言語モデルの能力を評価することを目的とした、新しいベンチマークである。
我々は,様々な戦略を用いて,オープンソースおよびプロプライエタリなマルチモーダル言語モデルのスイートに対して,徹底的なベースライン評価を行う。
この結果は、マルチモーダルモデリングの分野を前進させる重要なツールとしてのベンチマークの可能性を強調している。
- 参考スコア(独自算出の注目度): 41.84175991112392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for visual question answering lack in visual grounding and complexity, particularly in evaluating spatial reasoning skills. We introduce FlowVQA, a novel benchmark aimed at assessing the capabilities of visual question-answering multimodal language models in reasoning with flowcharts as visual contexts. FlowVQA comprises 2,272 carefully generated and human-verified flowchart images from three distinct content sources, along with 22,413 diverse question-answer pairs, to test a spectrum of reasoning tasks, including information localization, decision-making, and logical progression. We conduct a thorough baseline evaluation on a suite of both open-source and proprietary multimodal language models using various strategies, followed by an analysis of directional bias. The results underscore the benchmark's potential as a vital tool for advancing the field of multimodal modeling, providing a focused and challenging environment for enhancing model performance in visual and logical reasoning tasks.
- Abstract(参考訳): 既存の視覚的質問応答のベンチマークでは、特に空間的推論スキルの評価において、視覚的根拠と複雑さが欠如している。
本稿では,フローチャートを視覚的文脈とする視覚質問応答型マルチモーダル言語モデルの性能評価を目的とした,新しいベンチマークであるFlowVQAを紹介する。
FlowVQAは、情報ローカライゼーション、意思決定、論理的進行を含む推論タスクのスペクトルをテストするために、3つの異なるコンテンツソースから2,272個の慎重に生成された、人間検証されたフローチャートイメージと、22,413個の多様な質問応答ペアからなる。
我々は、様々な戦略を用いて、オープンソースおよびプロプライエタリなマルチモーダル言語モデルのスイートに対して、徹底的なベースライン評価を行い、次いで指向性バイアスの分析を行う。
この結果は、マルチモーダルモデリングの分野を前進させる重要なツールとしてのベンチマークの可能性を強調し、視覚的および論理的推論タスクにおけるモデルパフォーマンスを向上させるための集中的で挑戦的な環境を提供する。
関連論文リスト
- How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? [2.3993515715868714]
本稿では,視覚言語モデル(VLM)に好適な画像分布を特定するための,新しい一般化可能な手法を提案する。
これを異なる3次元オブジェクトのレンダリングタイプに適用することにより、複雑な構造の正確な解釈を必要とする様々な領域で有効性を示す。
特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。
論文 参考訳(メタデータ) (2024-09-03T19:26:13Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning [8.1113308714581]
本稿では,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
このアプローチは、複数のパブリックデータセット上での優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-02T01:28:44Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。