論文の概要: POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering
- arxiv url: http://arxiv.org/abs/2507.11939v1
- Date: Wed, 16 Jul 2025 06:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.247047
- Title: POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering
- Title(参考訳): POLYCHARTQA:多言語チャート質問応答を用いた大規模視覚言語モデルのベンチマーク
- Authors: Yichen Xu, Liangyu Chen, Liang Zhang, Wenxuan Wang, Qin Jin,
- Abstract要約: PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。
我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
- 参考スコア(独自算出の注目度): 69.52231076699756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are a universally adopted medium for interpreting and communicating data. However, existing chart understanding benchmarks are predominantly English-centric, limiting their accessibility and applicability to global audiences. In this paper, we present PolyChartQA, the first large-scale multilingual chart question answering benchmark covering 22,606 charts and 26,151 question-answering pairs across 10 diverse languages. PolyChartQA is built using a decoupled pipeline that separates chart data from rendering code, allowing multilingual charts to be flexibly generated by simply translating the data and reusing the code. We leverage state-of-the-art LLM-based translation and enforce rigorous quality control in the pipeline to ensure the linguistic and semantic consistency of the generated multilingual charts. PolyChartQA facilitates systematic evaluation of multilingual chart understanding. Experiments on both open- and closed-source large vision-language models reveal a significant performance gap between English and other languages, especially low-resource ones with non-Latin scripts. This benchmark lays a foundation for advancing globally inclusive vision-language models.
- Abstract(参考訳): チャートは、データを解釈し、通信するための普遍的に採用されている媒体である。
しかし、既存のチャート理解ベンチマークは主に英語中心であり、グローバルなオーディエンスへのアクセシビリティと適用性を制限している。
本稿では,10言語にまたがる22,606のチャートと26,151の質問応答対をカバーする,最初の大規模多言語チャート質問応答ベンチマークであるPolyChartQAを提案する。
PolyChartQAは、グラフデータをレンダリングコードから分離する分離パイプラインを使用して構築されている。
我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
PolyChartQAは多言語チャート理解の体系的評価を容易にする。
オープンソースとクローズドソースの両方の大規模ビジョン言語モデルに対する実験は、英語と他の言語、特に非ラテン語スクリプトを持つ低リソースモデルの間の大きなパフォーマンスギャップを示している。
このベンチマークは、グローバルに包括的な視覚言語モデルを進化させる基盤となる。
関連論文リスト
- Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-26T14:59:04Z) - In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。
そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。
また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文 参考訳(メタデータ) (2025-07-18T18:15:09Z) - Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。
現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。
本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:41:10Z) - MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems [18.188725200923333]
チャート関連タスクの既存のベンチマークは、実世界のマルチチャートシナリオの複雑さを捉えるのに不足している。
直接質問応答,並列質問応答,比較推論,シーケンシャル推論の4つの重要な領域でMLLMの能力を評価するベンチマークであるMultiChartQAを紹介する。
本研究は,マルチチャート理解の課題と,この分野での進歩を促進するためのマルチチャートQAの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-18T05:15:50Z) - CHARTOM: A Visual Theory-of-Mind Benchmark for LLMs on Misleading Charts [26.477627174115806]
CHARTOMはマルチモーダルな大規模言語モデルの能力を評価するために設計されたビジュアル・オブ・ミンド・ベンチマークである。
CHARTOMは、慎重に設計されたチャートと関連する質問で構成されており、言語モデルがチャートの事実を正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する(MINDの質問)。
我々は,人間のパフォーマンスの校正や,人間ミスリーディングネス指数(Human Misleadingness Index)と呼ばれるMIND基底真理の推定を含むベンチマークの構築について詳述する。
論文 参考訳(メタデータ) (2024-08-26T17:04:23Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Graph Neural Network Enhanced Language Models for Efficient Multilingual
Text Classification [8.147244878591014]
本稿では,モノ,クロス,マルチ言語シナリオ下で動作可能な多言語災害関連テキスト分類システムを提案する。
我々のエンドツーエンドのトレーニング可能なフレームワークは、コーパスに代えてグラフニューラルネットワークの汎用性を組み合わせたものです。
我々は、モノ、クロス、マルチ言語分類シナリオにおいて、合計9つの英語、非英語、モノリンガルデータセットについて、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2022-03-06T09:05:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。