論文の概要: ExpliCIT-QA: Explainable Code-Based Image Table Question Answering
- arxiv url: http://arxiv.org/abs/2507.11694v1
- Date: Tue, 15 Jul 2025 19:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.134234
- Title: ExpliCIT-QA: Explainable Code-Based Image Table Question Answering
- Title(参考訳): ExpliCIT-QA: 説明可能なコードベースのイメージテーブル質問回答
- Authors: Maximiliano Hormazábal Lagos, Álvaro Bueno Sáez, Pedro Alonso Doval, Jorge Alcalde Vesteiro, Héctor Cerezo-Costas,
- Abstract要約: ExpliCIT-QA は,(1) テーブルイメージからコンテンツを抽出し変換するためのマルチモーダルテーブル理解,(2) 自然言語によるステップバイステップの説明を生成する言語ベースの推論,(3) 推論ステップに基づいてPython/Pandas スクリプトを生成する自動コード生成,(4) 最終回答の計算のためのコード実行,(5) 答の計算方法を記述した自然言語説明,からなるモジュール設計に従っている。
この戦略は、エンドツーエンドテーブルにおける説明可能性ギャップの解消に有効である
- 参考スコア(独自算出の注目度): 0.157286095422595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ExpliCIT-QA, a system that extends our previous MRT approach for tabular question answering into a multimodal pipeline capable of handling complex table images and providing explainable answers. ExpliCIT-QA follows a modular design, consisting of: (1) Multimodal Table Understanding, which uses a Chain-of-Thought approach to extract and transform content from table images; (2) Language-based Reasoning, where a step-by-step explanation in natural language is generated to solve the problem; (3) Automatic Code Generation, where Python/Pandas scripts are created based on the reasoning steps, with feedback for handling errors; (4) Code Execution to compute the final answer; and (5) Natural Language Explanation that describes how the answer was computed. The system is built for transparency and auditability: all intermediate outputs, parsed tables, reasoning steps, generated code, and final answers are available for inspection. This strategy works towards closing the explainability gap in end-to-end TableVQA systems. We evaluated ExpliCIT-QA on the TableVQA-Bench benchmark, comparing it with existing baselines. We demonstrated improvements in interpretability and transparency, which open the door for applications in sensitive domains like finance and healthcare where auditing results are critical.
- Abstract(参考訳): 複雑なテーブルイメージを処理し、説明可能な回答を提供するマルチモーダルパイプラインに、表型質問応答に対するこれまでのMRTアプローチを拡張するシステムであるExpliCIT-QAを提案する。
ExpliCIT-QA は,(1) テーブルイメージからコンテンツを抽出し変換するためのマルチモーダルテーブル理解,(2) 自然言語によるステップバイステップの説明を生成する言語ベースの推論,(3) 推論ステップに基づいてPython/Pandas スクリプトを生成する自動コード生成,(4) 最終回答の計算のためのコード実行,(5) 答の計算方法を記述した自然言語説明,からなるモジュール設計に従っている。
システムは透明性と監査性のために構築されており、すべての中間出力、解析されたテーブル、推論ステップ、生成されたコード、最終的な回答が検査に利用できる。
この戦略は、エンドツーエンドのTableVQAシステムにおける説明可能性ギャップを埋めることを目的としている。
ExpliCIT-QAをTableVQA-Benchベンチマークで評価し,既存のベースラインと比較した。
監査結果が重要となる金融や医療といったセンシティブな分野のアプリケーションへの扉を開く、解釈可能性と透明性の改善を実証した。
関連論文リスト
- GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Interpretable LLM-based Table Question Answering [5.484058026469263]
テーブル質問回答(Table QA)の解釈可能性は非常に重要です。
本稿では,モデルの意思決定過程を解釈可能なテーブルQA法を提案する。
論文 参考訳(メタデータ) (2024-12-16T22:44:31Z) - Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering [3.1651118728570635]
今日の急成長する業界では、専門家は大量の文書を要約し、毎日重要な情報を抽出するという課題に直面している。
この課題に対処するために、テーブル質問回答(QA)のアプローチを開発し、関連する情報を抽出した。
近年のLarge Language Models (LLMs) の進歩により,プロンプトを用いて表データから情報を取り出す新たな可能性が高まっている。
論文 参考訳(メタデータ) (2024-03-28T03:14:18Z) - Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - CLTR: An End-to-End, Transformer-Based System for Cell Level Table
Retrieval and Table Question Answering [8.389189333083513]
本稿では,最初のエンドツーエンドのテーブル質問応答(QA)システムを提案する。
自然言語の質問と大量のテーブルコーパスを入力として、最も関係のあるテーブルを検索し、質問に答えるために正しいテーブルセルを見つける。
76,242テーブル上の2,005の自然言語質問からなる2つの新しいオープンドメインベンチマークであるE2E_WTQとE2E_GNQを導入する。
論文 参考訳(メタデータ) (2021-06-08T15:22:10Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。