論文の概要: TALENT: Table VQA via Augmented Language-Enhanced Natural-text Transcription
- arxiv url: http://arxiv.org/abs/2510.07098v1
- Date: Wed, 08 Oct 2025 14:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.575229
- Title: TALENT: Table VQA via Augmented Language-Enhanced Natural-text Transcription
- Title(参考訳): TALENT: Augmented Language-Enhanced Natural-text TranscriptionによるテーブルVQA
- Authors: Guo Yutong, Wanying Wang, Yue Wu, Zichen Miao, Haoyu Wang,
- Abstract要約: 表視質問回答(Table VQA)は、一般的に大きな視覚言語モデル(VLM)によって対処される。
テーブルの二重表現を利用する軽量なフレームワークTALENTを提案する。
- 参考スコア(独自算出の注目度): 15.734561144090641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Visual Question Answering (Table VQA) is typically addressed by large vision-language models (VLMs). While such models can answer directly from images, they often miss fine-grained details unless scaled to very large sizes, which are computationally prohibitive, especially for mobile deployment. A lighter alternative is to have a small VLM perform OCR and then use a large language model (LLM) to reason over structured outputs such as Markdown tables. However, these representations are not naturally optimized for LLMs and still introduce substantial errors. We propose TALENT (Table VQA via Augmented Language-Enhanced Natural-text Transcription), a lightweight framework that leverages dual representations of tables. TALENT prompts a small VLM to produce both OCR text and natural language narration, then combines them with the question for reasoning by an LLM. This reframes Table VQA as an LLM-centric multimodal reasoning task, where the VLM serves as a perception-narration module rather than a monolithic solver. Additionally, we construct ReTabVQA, a more challenging Table VQA dataset requiring multi-step quantitative reasoning over table images. Experiments show that TALENT enables a small VLM-LLM combination to match or surpass a single large VLM at significantly lower computational cost on both public datasets and ReTabVQA.
- Abstract(参考訳): テーブルビジュアル質問回答 (Table VQA) は通常、大きな視覚言語モデル (VLM) によって対処される。
このようなモデルは画像から直接答えることができるが、特にモバイルデプロイメントにおいて計算的に禁止される非常に大きなサイズにスケールされない限り、細かな詳細を見逃すことがしばしばある。
より軽量な代替手段は、小さなVLMがOCRを実行し、次に大きな言語モデル(LLM)を使用してMarkdownテーブルのような構造化出力を推論することである。
しかし、これらの表現はLLMに自然に最適化されておらず、重大なエラーを発生させる。
本稿では,テーブルの二重表現を利用した軽量なフレームワークTALENT(Table VQA via Augmented Language-Enhanced Natural-text Transcription)を提案する。
TALENTは、小さなVLMにOCRテキストと自然言語ナレーションの両方を生成するように促し、LLMによる推論の質問と組み合わせる。
これはテーブルVQAをLLM中心のマルチモーダル推論タスクとして再構成し、VLMはモノリシックな解法ではなく知覚ナレーションモジュールとして機能する。
さらに,テーブル画像に対する多段階の定量的推論を必要とするテーブルVQAデータセットであるReTabVQAを構築した。
実験の結果、TALENTは小さなVLM-LLMの組み合わせを、公開データセットとReTabVQAの両方の計算コストで、単一の大きなVLMに匹敵するか、超えることができることがわかった。
関連論文リスト
- TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Are Prompts All You Need? Evaluating Prompt-Based Large Language Models (LLM)s for Software Requirements Classification [1.1458853556386799]
本研究は,プロンプトベースの大規模言語モデルがデータニーズを低減できるかどうかを検証する。
PMISEとSecReqという2つの英語データセット上で、複数のタスクにまたがる複数のモデルとスタイルをベンチマークする。
論文 参考訳(メタデータ) (2025-09-17T09:58:26Z) - Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains [4.828743805126944]
本稿では、テーブルVQA-Benchと呼ばれるテーブル視覚質問応答のベンチマークを確立する。
既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
論文 参考訳(メタデータ) (2024-04-30T02:05:18Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文 参考訳(メタデータ) (2022-10-13T04:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。