Fugu-MT 論文翻訳(概要): TableRAG: Million-Token Table Understanding with Language Models

論文の概要: TableRAG: Million-Token Table Understanding with Language Models

arxiv url: http://arxiv.org/abs/2410.04739v1
Date: Mon, 7 Oct 2024 04:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 02:17:53.663411
Title: TableRAG: Million-Token Table Understanding with Language Models
Title（参考訳）: TableRAG: 言語モデルによる数百万のテーブル理解
Authors: Si-An Chen, Lesly Miculicich, Julian Martin Eisenschlos, Zifeng Wang, Zilong Wang, Yanfei Chen, Yasuhisa Fujii, Hsuan-Tien Lin, Chen-Yu Lee, Tomas Pfister,
Abstract要約: TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
参考スコア（独自算出の注目度）: 53.039560091592215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in language models (LMs) have notably enhanced their ability to reason with tabular data, primarily through program-aided mechanisms that manipulate and analyze tables. However, these methods often require the entire table as input, leading to scalability challenges due to the positional bias or context length constraints. In response to these challenges, we introduce TableRAG, a Retrieval-Augmented Generation (RAG) framework specifically designed for LM-based table understanding. TableRAG leverages query expansion combined with schema and cell retrieval to pinpoint crucial information before providing it to the LMs. This enables more efficient data encoding and precise retrieval, significantly reducing prompt lengths and mitigating information loss. We have developed two new million-token benchmarks from the Arcade and BIRD-SQL datasets to thoroughly evaluate TableRAG's effectiveness at scale. Our results demonstrate that TableRAG's retrieval design achieves the highest retrieval quality, leading to the new state-of-the-art performance on large-scale table understanding.
Abstract（参考訳）: 近年の言語モデル(LM)の進歩は、主にテーブルを操作・解析するプログラム支援機構を通じて、表型データによる推論能力を高めている。しかし、これらの手法は入力としてテーブル全体を必要とすることが多く、位置バイアスやコンテキスト長の制約によるスケーラビリティ上の問題を引き起こす。これらの課題に対応するために、我々は、LMベースのテーブル理解のために特別に設計されたRetrieval-Augmented Generation (RAG)フレームワークであるTableRAGを紹介した。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。これにより、より効率的なデータエンコーディングと正確な検索が可能になり、プロンプトの長さを大幅に削減し、情報損失を軽減できる。我々はArcadeとBIRD-SQLのデータセットから新たに2つのベンチマークを作成し、TableRAGの有効性を徹底的に評価した。この結果から,TableRAGの検索設計は検索精度が最も高く,大規模テーブル理解における最先端性能が向上することが示唆された。

関連論文リスト

Beyond Linearization: Attributed Table Graphs for Table Reasoning [29.473235136449134]
テーブルを分散表グラフ(ATG)として表す学習自由モデルを提案する。 TABGRは最新モデルの精度を最大9.7%向上させる。
論文参考訳（メタデータ） (2026-01-13T11:14:43Z)
Table as a Modality for Large Language Models [28.392792653645998]
提案したStructQAベンチマークで探索実験を行った。本稿では,テーブルをテキストトークンと統合した独立したモダリティとして扱うためのイデオロギーを持つTAMOを提案する。
論文参考訳（メタデータ） (2025-11-30T15:59:56Z)
TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。 2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文参考訳（メタデータ） (2025-09-01T09:53:01Z)
TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文参考訳（メタデータ） (2025-06-23T09:02:04Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文参考訳（メタデータ） (2025-06-04T15:46:30Z)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。 GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文参考訳（メタデータ） (2025-04-02T04:24:41Z)
TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文参考訳（メタデータ） (2025-03-06T12:50:14Z)
Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文参考訳（メタデータ） (2024-11-13T11:02:04Z)
Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文参考訳（メタデータ） (2024-09-21T16:46:15Z)
TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文参考訳（メタデータ） (2024-09-18T06:19:59Z)
ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-03T12:34:45Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。 FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文参考訳（メタデータ） (2023-11-15T12:02:52Z)
TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT [19.57099486334867]
TableGPTは、大きな言語モデル(LLM)が外部機能コマンドを使用してテーブル上で理解し、操作できるようにするフレームワークである。 TableGPTは、ユーザに対して、テーブルデータを活用することによって、利便性とアクセシビリティを提供することを目的としている。
論文参考訳（メタデータ） (2023-07-17T17:36:09Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。