論文の概要: INDOTABVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents
- arxiv url: http://arxiv.org/abs/2604.11970v1
- Date: Mon, 13 Apr 2026 19:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.075187
- Title: INDOTABVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents
- Title(参考訳): INDOTABVQA:バハサ・インドネシア文書における言語間テーブル理解のためのベンチマーク
- Authors: Somraj Gautam, Anathapindika Dravichi, Gaurav Harit,
- Abstract要約: INDOTABVQAは、バハサ・インドネシアの実際の文書画像に対して、言語横断的な表視覚質問回答(VQA)を評価するためのベンチマークである。
データセットは、3つの視覚的なスタイルで1,593のドキュメントイメージと4つの言語で1,593の質問回答セットで構成されている。
我々のデータセット上でコンパクトな3BとLoRAの7Bモデルを微調整すると、精度は11.6%と17.8%向上する。
- 参考スコア(独自算出の注目度): 1.9881456274482427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce INDOTABVQA, a benchmark for evaluating cross-lingual Table Visual Question Answering (VQA) on real-world document images in Bahasa Indonesia. The dataset comprises 1,593 document images across three visual styles (bordered, borderless, and colorful) with one or more than one tables, and 1,593 question-answer sets in four languages: Bahasa Indonesia, English, Hindi, and Arabic. This enables evaluation of Vision-Language Models (VLMs) in both monolingual (Bahasa documents with Bahasa questions) and cross-lingual settings (Bahasa documents with questions in other languages). We benchmark leading open-source VLMs (Qwen2.5-VL, Gemma-3, LLaMA-3.2) and GPT-4o and reveal substantial performance gaps, particularly on structurally complex tables and in low-resource languages. Fine-tuning a compact 3B and LoRA-finetuned 7B model on our dataset yields 11.6% and 17.8% improvements in accuracy. Providing explicit table region coordinates as additional input further improves performance by 4-7%, demonstrating the value of Spatial priors for table-based reasoning. Our findings underscore the importance of language-diverse, domain-specific datasets and demonstrate that targeted fine-tuning can significantly enhance VLM performance on specialized document understanding tasks. INDOTABVQA provides a valuable resource for advancing research in cross-lingual, structure-aware document understanding, especially in underrepresented regions of the world. Full dataset can be accessed in huggingface at: https://huggingface.co/datasets/NusaBharat/INDOTABVQA}
- Abstract(参考訳): 本稿では,バハサ・インドネシアにおける実世界の文書画像に対して,対話型質問応答(VQA)を評価するためのベンチマークであるINDOTABVQAを紹介する。
データセットは、バハサ・インドネシア語、英語、ヒンディー語、アラビア語の4つの言語からなる1,593の問合せセットと、1つ以上のテーブルを持つ3つの視覚的スタイル(境界、無境界、カラフルな)にわたる1,593の文書画像で構成されている。
これにより、単言語(バハサ質問付きバハサ文書)と言語間設定(他の言語での質問付きバハサ文書)の両方で視覚言語モデル(VLM)の評価が可能となる。
我々は、オープンソースのVLM(Qwen2.5-VL, Gemma-3, LLaMA-3.2)とGPT-4oをベンチマークし、特に構造的に複雑なテーブルや低リソース言語において、大幅な性能差を明らかにした。
我々のデータセット上でコンパクトな3BとLoRAの7Bモデルを微調整すると、精度は11.6%と17.8%向上する。
追加入力として明示的なテーブル領域座標を提供することで、テーブルベースの推論のための空間的先行値の値を示すことにより、パフォーマンスが4-7%向上する。
本研究は, 言語多様性, ドメイン固有データセットの重要性を明らかにするとともに, 特定の文書理解タスクにおけるVLM性能を大幅に向上させることを示す。
INDOTABVQAは、言語間、構造を意識した文書理解の研究を進めるための貴重なリソースを提供する。
https://huggingface.co/datasets/NusaBharat/INDOTABVQA}
関連論文リスト
- HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples [3.3715057550177145]
インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
論文 参考訳(メタデータ) (2025-11-19T07:11:00Z) - M3TQA: Massively Multilingual Multitask Table Question Answering [39.99483693397598]
m3TQA-Instructは97の言語にまたがる大規模なベンチマークである。
我々は、中国語と英語で50の現実世界のテーブルをキュレートしてm3TQAを構築し、DeepSeekとGPT-4oをベースとした堅牢な6ステップの翻訳パイプラインを適用した。
このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-08-22T09:57:40Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering [44.89146464166763]
既存のTATQAデータセットは英語に限られている。
彼らは多言語TAT-QAの課題を見落としている。
表やテキストが英語以外の言語に頻繁に現れる現実世界のシナリオを反映していない。
論文 参考訳(メタデータ) (2025-02-24T15:34:09Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。