論文の概要: Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering
- arxiv url: http://arxiv.org/abs/2505.14131v1
- Date: Tue, 20 May 2025 09:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.976231
- Title: Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering
- Title(参考訳): テキストか画像か? : 入力表現の有効性と質問応答モデルの検討
- Authors: Wei Zhou, Mohsen Mesgar, Heike Adel, Annemarie Friedrich,
- Abstract要約: 2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。
テーブル表現とモデルの組み合わせはセットアップによって異なります。
本稿では,テーブル表現を動的に選択するFRESを提案する。
- 参考スコア(独自算出の注目度): 16.790216473975146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In table question answering (TQA), tables are encoded as either texts or images. Prior work suggests that passing images of tables to multi-modal large language models (MLLMs) performs comparably to or even better than using textual input with large language models (LLMs). However, the lack of controlled setups limits fine-grained distinctions between these approaches. In this paper, we conduct the first controlled study on the effectiveness of several combinations of table representations and models from two perspectives: question complexity and table size. We build a new benchmark based on existing TQA datasets. In a systematic analysis of seven pairs of MLLMs and LLMs, we find that the best combination of table representation and model varies across setups. We propose FRES, a method selecting table representations dynamically, and observe a 10% average performance improvement compared to using both representations indiscriminately.
- Abstract(参考訳): テーブル質問応答(TQA)では、テーブルはテキストまたはイメージとしてエンコードされる。
従来の研究は、表の画像をマルチモーダルな大言語モデル (MLLM) に渡すことは、大きな言語モデル (LLM) を用いたテキスト入力を使用するよりも、相容れないか、それ以上に優れていることを示唆している。
しかし、制御された設定の欠如は、これらのアプローチの微妙な区別を制限している。
本稿では,質問複雑性と表サイズという2つの観点から,表表現とモデルの組み合わせの有効性に関する最初の制御研究を行う。
既存のTQAデータセットに基づいた新しいベンチマークを構築します。
MLLM と LLM の7組の体系的解析により,テーブル表現とモデルの組み合わせはセットアップによって異なることがわかった。
本稿では,テーブル表現を動的に選択するFRESを提案する。
関連論文リスト
- SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA [25.09488366689108]
テキスト・ツー・パースとエンドツーエンド質問応答(E2E TQA)は、表に基づく質問回答タスクの2つの主要なアプローチである。
複数のベンチマークで成功したが、まだ比較されておらず、相乗効果は未解明のままである。
ベンチマークデータセットの最先端モデルを評価することによって、さまざまな長所と短所を識別する。
論文 参考訳(メタデータ) (2024-09-25T07:18:45Z) - FLEXTAF: Enhancing Table Reasoning with Flexible Tabular Formats [48.47559543509975]
フレキシブルフォーマットを用いてテーブル推論性能を向上させるためのFLEXTAF-SingleとFLEXTAF-Voteを提案する。
WikiTableQuestionsとTabFactに関する我々の実験は、平均的な2.3%と4.8%の大幅な改善を示している。
論文 参考訳(メタデータ) (2024-08-16T17:00:11Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。