論文の概要: A Hybrid Search for Complex Table Question Answering in Securities Report
- arxiv url: http://arxiv.org/abs/2511.09179v1
- Date: Thu, 13 Nov 2025 01:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.449275
- Title: A Hybrid Search for Complex Table Question Answering in Securities Report
- Title(参考訳): 複合質問応答のハイブリッド検索
- Authors: Daiki Shirafuji, Koji Tanaka, Tatsuhiko Saito,
- Abstract要約: 手動による識別を伴わないTQA(Table Question Answering)のためのセル抽出法を提案する。
提案手法は,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。
次に、最も関連する行と列の交点にあるセルの答えとして選択する。
- 参考スコア(独自算出の注目度): 0.9430947207126281
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, Large Language Models (LLMs) are gaining increased attention in the domain of Table Question Answering (TQA), particularly for extracting information from tables in documents. However, directly entering entire tables as long text into LLMs often leads to incorrect answers because most LLMs cannot inherently capture complex table structures. In this paper, we propose a cell extraction method for TQA without manual identification, even for complex table headers. Our approach estimates table headers by computing similarities between a given question and individual cells via a hybrid retrieval mechanism that integrates a language model and TF-IDF. We then select as the answer the cells at the intersection of the most relevant row and column. Furthermore, the language model is trained using contrastive learning on a small dataset of question-header pairs to enhance performance. We evaluated our approach in the TQA dataset from the U4 shared task at NTCIR-18. The experimental results show that our pipeline achieves an accuracy of 74.6\%, outperforming existing LLMs such as GPT-4o mini~(63.9\%). In the future, although we used traditional encoder models for retrieval in this study, we plan to incorporate more efficient text-search models to improve performance and narrow the gap with human evaluation results.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) がテーブル質問回答 (TQA) 分野において注目されている。
しかしながら、LLMに長いテキストとしてテーブル全体を直接入力すると、ほとんどのLLMは本質的に複雑なテーブル構造をキャプチャできないため、誤った答えにつながることが多い。
本稿では,複雑なテーブルヘッダーであっても,手動による識別が不要なTQAのセル抽出手法を提案する。
提案手法は,言語モデルとTF-IDFを統合したハイブリッド検索機構を用いて,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。
次に、最も関連する行と列の交点にあるセルの答えとして選択する。
さらに、言語モデルは、性能を高めるために、質問ヘッダペアの小さなデータセット上で、コントラスト学習を用いて訓練される。
NTCIR-18におけるU4共有タスクから,TQAデータセットのアプローチを評価した。
実験の結果,GPT-4o mini~(63.9\%)などの既存のLCMよりも高い精度で74.6\%の精度が得られることがわかった。
将来的には,従来のエンコーダモデルを用いて検索を行うが,より効率的なテキスト検索モデルを導入し,性能向上と人的評価結果とのギャップを狭めることを計画している。
関連論文リスト
- Agentic LLMs for Question Answering over Tabular Data [6.310433217813068]
Tabular Data (Table QA) に対する質問回答は、現実世界のテーブルの構造、サイズ、データタイプが多様であることから、ユニークな課題を提示している。
本稿では,我々の方法論,実験結果,代替手法について詳述し,テーブルQAの強度と限界について考察する。
論文 参考訳(メタデータ) (2025-09-11T08:12:38Z) - Improving Table Retrieval with Question Generation from Partial Tables [2.2169618382995764]
本稿では,LLMを用いてテーブルの小さな部分に基づいて合成質問を生成する簡易かつ効果的な方法であるQGpTを提案する。
生成された質問は、生成に使用される部分テーブルセグメントに結合され、ユーザクエリとのセマンティックアライメントが強化される。
論文 参考訳(メタデータ) (2025-08-08T09:35:56Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。
FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文 参考訳(メタデータ) (2024-09-21T16:46:15Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Localize, Retrieve and Fuse: A Generalized Framework for Free-Form
Question Answering over Tables [46.039687237878105]
TableQAは、提供されたテーブルに座った質問に対する回答を生成することを目的としている。
テーブルからグラフへの変換,セルローカライズ,外部知識検索,テーブルとテキストの融合を提案する。
実験は、忠実で一貫性のある文を生成するためのTAG-QAの優れた能力を示す。
論文 参考訳(メタデータ) (2023-09-20T03:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。