論文の概要: NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables
- arxiv url: http://arxiv.org/abs/2504.06560v2
- Date: Thu, 29 May 2025 03:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.611893
- Title: NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables
- Title(参考訳): NeedleInATable: 長期構造テーブルに向けた大規模言語モデルの長期能力を探る
- Authors: Lanrui Wang, Mingyu Zheng, Hongyin Tang, Zheng Lin, Yanan Cao, Jingang Wang, Xunliang Cai, Weiping Wang,
- Abstract要約: textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
- 参考スコア(独自算出の注目度): 32.9031799179503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Processing structured tabular data, particularly large and lengthy tables, constitutes a fundamental yet challenging task for large language models (LLMs). However, existing long-context benchmarks like Needle-in-a-Haystack primarily focus on unstructured text, neglecting the challenge of diverse structured tables. Meanwhile, previous tabular benchmarks mainly consider downstream tasks that require high-level reasoning abilities, and overlook models' underlying fine-grained perception of individual table cells, which is crucial for practical and robust LLM-based table applications. To address this gap, we introduce \textsc{NeedleInATable} (NIAT), a new long-context tabular benchmark that treats each table cell as a ``needle'' and requires models to extract the target cell based on cell locations or lookup questions. Our comprehensive evaluation of various LLMs and multimodal LLMs reveals a substantial performance gap between popular downstream tabular tasks and the simpler NIAT task, suggesting that they may rely on dataset-specific correlations or shortcuts to obtain better benchmark results but lack truly robust long-context understanding towards structured tables. Furthermore, we demonstrate that using synthesized NIAT training data can effectively improve performance on both NIAT task and downstream tabular tasks, which validates the importance of NIAT capability for LLMs' genuine table understanding ability. Our data, code and models will be released to facilitate future research.
- Abstract(参考訳): 構造化表データ、特に大きくて長いテーブルを処理することは、大規模言語モデル(LLM)の基本的な課題である。
しかし、Needle-in-a-Haystackのような既存の長期コンテキストベンチマークは主に構造化されていないテキストに焦点を当てており、多様な構造化テーブルの課題を無視している。
一方、従来の表型ベンチマークでは、高レベルな推論能力を必要とする下流タスクや、実用的で堅牢なLCMベースのテーブルアプリケーションに欠かせない個々のテーブルセルの微粒化認識を概観していた。
このギャップに対処するために,我々は,各テーブルセルを 'needle'' として扱い,セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする,新しい長いコンテキストの表型ベンチマークである \textsc{NeedleInATable} (NIAT) を導入する。
各種LCMとマルチモーダルLCMの総合的な評価は、一般的なダウンストリーム表タスクと単純なNIATタスクの間に大きな性能差があることを示し、より優れたベンチマーク結果を得るためにデータセット固有の相関やショートカットに依存するが、構造化テーブルに対する真に堅牢なロングコンテキスト理解が欠如していることを示唆している。
さらに、合成されたNIATトレーニングデータを使用することで、NIATタスクと下流表表タスクの両方のパフォーマンスを効果的に向上できることを示し、LLMの真のテーブル理解能力に対するNIAT能力の重要性を検証した。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
関連論文リスト
- WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - On the Robustness of Language Models for Tabular Question Answering [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
我々は,ウィキペディアベースのtextbfWTQ,財務報告ベースの textbfTAT-QA,科学クレームベースの textbfSCITAB,TQA データセット上での LLM の堅牢性を評価する。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。