論文の概要: M3TQA: Massively Multilingual Multitask Table Question Answering
- arxiv url: http://arxiv.org/abs/2508.16265v1
- Date: Fri, 22 Aug 2025 09:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.346681
- Title: M3TQA: Massively Multilingual Multitask Table Question Answering
- Title(参考訳): M3TQA:多言語多タスクテーブル質問への回答
- Authors: Daixin Shu, Jian Yang, Zhenhe Wu, Xianjie Wu, Xianfu Cheng, Xiangyuan Guan, Yanghai Wang, Pengfei Wu, Tingyang Yang, Hualei Zhu, Wei Zhang, Ge Zhang, Jiaheng Liu, Zhoujun Li,
- Abstract要約: m3TQA-Instructは97の言語にまたがる大規模なベンチマークである。
我々は、中国語と英語で50の現実世界のテーブルをキュレートしてm3TQAを構築し、DeepSeekとGPT-4oをベースとした堅牢な6ステップの翻訳パイプラインを適用した。
このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
- 参考スコア(独自算出の注目度): 39.99483693397598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is a fundamental component of real-world information systems, yet most research in table understanding remains confined to English, leaving multilingual comprehension significantly underexplored. Existing multilingual table benchmarks suffer from geolinguistic imbalance - overrepresenting certain languages and lacking sufficient scale for rigorous cross-lingual analysis. To address these limitations, we introduce a comprehensive framework for massively multilingual multitask table question answering, featuring m3TQA-Instruct, a large-scale benchmark spanning 97 languages across diverse language families, including underrepresented and low-resource languages. We construct m3TQA by curating 50 real-world tables in Chinese and English, then applying a robust six-step LLM-based translation pipeline powered by DeepSeek and GPT-4o, achieving high translation fidelity with a median BLEU score of 60.19 as validated through back-translation. The benchmark includes 2,916 professionally annotated question-answering pairs across four tasks designed to evaluate nuanced table reasoning capabilities. Experiments on state-of-the-art LLMs reveal critical insights into cross-lingual generalization, demonstrating that synthetically generated, unannotated QA data can significantly boost performance, particularly for low-resource languages. M3T-Bench establishes a new standard for multilingual table understanding, providing both a challenging evaluation platform and a scalable methodology for future research.
- Abstract(参考訳): タブラルデータは実世界の情報システムの基本的構成要素であるが、表理解のほとんどの研究は英語に限られており、多言語理解は明らかに過小評価されている。
既存の多言語テーブルベンチマークは、幾何的不均衡に悩まされており、特定の言語を過剰に表現し、厳密な言語間分析に十分なスケールを欠いている。
これらの制約に対処するため,我々はm3TQA-Instructを特徴とする多言語マルチタスクテーブル質問応答のための包括的なフレームワークを導入する。
我々は、中国語と英語で50の現実世界のテーブルをキュレートし、DeepSeekとGPT-4oをベースとした6ステップのLSMベースの翻訳パイプラインを適用してm3TQAを構築する。
このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
最先端のLLMの実験では、言語間一般化に関する重要な洞察が示され、特に低リソース言語において、合成された、注釈なしのQAデータがパフォーマンスを大幅に向上させることを示した。
M3T-Benchは、多言語テーブル理解のための新しい標準を確立し、挑戦的な評価プラットフォームと、将来の研究のためのスケーラブルな方法論を提供する。
関連論文リスト
- MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。