論文の概要: ViInfographicVQA: A Benchmark for Single and Multi-image Visual Question Answering on Vietnamese Infographics
- arxiv url: http://arxiv.org/abs/2512.12424v1
- Date: Sat, 13 Dec 2025 18:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.253019
- Title: ViInfographicVQA: A Benchmark for Single and Multi-image Visual Question Answering on Vietnamese Infographics
- Title(参考訳): ViInfographicVQA: ベトナム語の単画像と複数画像の視覚的質問応答のベンチマーク
- Authors: Tue-Thu Van-Dinh, Hoang-Duy Tran, Truong-Binh Duong, Mai-Hanh Pham, Binh-Nam Le-Nguyen, Quoc-Thai Nguyen,
- Abstract要約: Infographic Visual Question Answering (InfographicVQA) は、データリッチでレイアウトの多いビジュアルを読み書きするモデルの能力を評価する。
ベトナムのInfographicVQAの最初のベンチマークであるViInfographicVQAを紹介する。
このベンチマークは、6747以上の現実世界のインフォグラフィックと、20409の人間による検証された質問応答ペアで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infographic Visual Question Answering (InfographicVQA) evaluates a model's ability to read and reason over data-rich, layout-heavy visuals that combine text, charts, icons, and design elements. Compared with scene-text or natural-image VQA, infographics require stronger integration of OCR, layout understanding, and numerical and semantic reasoning. We introduce ViInfographicVQA, the first benchmark for Vietnamese InfographicVQA, comprising over 6747 real-world infographics and 20409 human-verified question-answer pairs across economics, healthcare, education, and more. The benchmark includes two evaluation settings. The Single-image task follows the traditional setup in which each question is answered using a single infographic. The Multi-image task requires synthesizing evidence across multiple semantically related infographics and is, to our knowledge, the first Vietnamese evaluation of cross-image reasoning in VQA. We evaluate a range of recent vision-language models on this benchmark, revealing substantial performance disparities, with the most significant errors occurring on Multi-image questions that involve cross-image integration and non-span reasoning. ViInfographicVQA contributes benchmark results for Vietnamese InfographicVQA and sheds light on the limitations of current multimodal models in low-resource contexts, encouraging future exploration of layout-aware and cross-image reasoning methods.
- Abstract(参考訳): Infographic Visual Question Answering (InfographicVQA)は、テキスト、チャート、アイコン、デザイン要素を組み合わせた、データ豊かでレイアウトに富んだビジュアルの読み書き能力を評価する。
シーンテキストや自然画像のVQAと比較して、インフォグラフィックはOCRのより強力な統合、レイアウト理解、数値的および意味論的推論を必要とする。
ベトナムのインフォグラフィックVQAの最初のベンチマークであるViInfographicVQAを紹介した。
ベンチマークには2つの評価設定が含まれている。
シングルイメージタスクは、各質問が単一のインフォグラフィックを使用して回答される伝統的な設定に従う。
マルチイメージタスクは,複数の意味関連インフォグラフィックにまたがってエビデンスを合成する必要がある。
このベンチマークでは、クロスイメージ統合や非スパン推論を含むマルチイメージ質問において、最も重大なエラーが発生し、性能の相違が明らかとなった。
ViInfographicVQAはベトナムのInfographicVQAのベンチマーク結果に貢献し、低リソース環境での現在のマルチモーダルモデルの限界に光を当て、レイアウト認識およびクロスイメージ推論手法の今後の探索を奨励している。
関連論文リスト
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - Understanding the Role of Scene Graphs in Visual Question Answering [26.02889386248289]
我々はGQAデータセット上で実験を行い、計数、構成性、高度な推論能力を必要とする質問の挑戦的なセットを示す。
我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案する。
視覚質問応答におけるシーングラフの利用に関する多面的研究を行い,本研究を第一種とした。
論文 参考訳(メタデータ) (2021-01-14T07:27:37Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。