論文の概要: Structure-Aware Chunking for Tabular Data in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.00318v1
- Date: Fri, 01 May 2026 00:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.801664
- Title: Structure-Aware Chunking for Tabular Data in Retrieval-Augmented Generation
- Title(参考訳): 検索型生成における語彙データの構造認識チャンキング
- Authors: Pooja Guttal, Varun Magotra, Vasudeva Mahavishnu, Natasha Chanto, Sidharth Sivaprasad, Manas Gaur,
- Abstract要約: 階層的なRow Tree表現を構築し,行単位で動作可能な構造対応チャンキングフレームワークを提案する。
MAUDデータセットの評価全体で、STCはチャンク数を最大40%と56%削減する。
これらの結果は,チャンキング時の保存構造が検索性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 7.2220969332557
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular documents such as CSV and Excel files are widely used in enterprise data pipelines, yet existing chunking strategies for retrieval-augmented generation (RAG) are primarily designed for unstructured text and do not account for tabular structure. We propose a structure-aware tabular chunking (STC) framework that operates on row-level units by constructing a hierarchical Row Tree representation, where each row is encoded as a key-value block. STC performs token-constrained splitting aligned with structural boundaries and applies overlap-free greedy merging to produce dense, non-overlapping chunks. This design preserves semantic relationships between fields within a row while improving token utilization and reducing fragmentation. Across evaluations on the MAUD dataset, STC reduces chunk count by up to 40% and 56% compared to standard recursive and key-value based baselines, respectively, while improving token utilization and processing efficiency. In retrieval benchmarks, STC improves MRR from 0.3576 to 0.5945 in a hybrid setting and increases Recall@1 from 0.366 to 0.754 in BM25-only retrieval. These results demonstrate that preserving structure during chunking improves retrieval performance, highlighting the importance of structure-aware chunking for RAG over tabular data.
- Abstract(参考訳): CSVやExcelファイルのようなタブラル文書は、エンタープライズデータパイプラインで広く使われているが、検索強化生成(RAG)のための既存のチャンキング戦略は、主に構造化されていないテキストのために設計されており、表構造を考慮していない。
階層的なRow Tree表現を構築し,各行をキー値ブロックとしてエンコードすることで,行単位で動作する構造対応表層チャンキング(STC)フレームワークを提案する。
STCは、構造境界に整合したトークン制約分割を行い、重複のないグレディマージを適用して、密集した非重複チャンクを生成する。
この設計は、トークンの利用を改善し、断片化を減らすとともに、行内のフィールド間の意味的関係を保存する。
MAUDデータセットの評価全体で、STCはトークンの利用率と処理効率を改善しつつ、標準的な再帰的ベースラインとキー値ベースラインと比較して、チャンク数を最大40%と56%削減する。
検索ベンチマークでは、STC はハイブリッド環境で MRR を 0.3576 から 0.5945 に改善し、BM25 のみの検索では Recall@1 を 0.366 から 0.754 に向上させた。
これらの結果から,チャンキング時の保存構造が検索性能を向上させることが示され,表データに対するRAGの構造認識チャンキングの重要性が浮き彫りになった。
関連論文リスト
- SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data [47.930782177987446]
不均一なコーパスに答える検索拡張された質問は、テキスト、テーブル、グラフノード間で接続されたエビデンスを必要とする。
標準レトリバーリーダーパイプラインは、独立にチャンクされたテキスト上の平坦な類似性検索を使用し、モダリティ間のマルチホップエビデンスチェーンを欠いている。
SAGE(Structure Aware Graph Expansion)フレームワークを提案する。これは、パーセンタイルベースのプルーニングとメタデータ駆動の類似性を利用して、チャンクレベルのグラフをオフラインで構築する。
暗黙的クロスモーダルコーパスと明示的スキーマグラフのエージェント検索であるSPARK(Structure Aware Planning Agent for Retrieval over Knowledge Graphs)のハイブリッド高密度スパース検索を用いて初期検索をインスタンス化する。
論文 参考訳(メタデータ) (2026-02-18T23:57:19Z) - SPIRE: Structure-Preserving Interpretable Retrieval of Evidence [0.09558392439655013]
木構造ドキュメント上で動作する構造対応検索パイプラインを提案する。
私たちは、ドキュメントプリミティブの小さなセット、パスとパスセットを定義します。
グローバルな文脈化は、選択を理解不能にするために必要な非局所的な足場を追加する。
局所的な文脈化は、その構造領域内での種選択を拡張して、コンパクトで文脈に富んだビューを得る。
論文 参考訳(メタデータ) (2026-02-12T03:46:10Z) - Innovative tokenisation of structured data for LLM training [0.0]
本稿では,構造化されたデータを大規模言語モデル(LLM)の訓練に適したシーケンシャルな形式に変換する,新しいハイブリッドなトークン化手法を提案する。
提案手法は効率が高く, ネットワークフロー3300万回以上を5時間以内で処理し, 6.18:1の有意なデータ圧縮比を達成した。
このプロセスは10億以上のトークンを計算的に管理可能なコーパスとなり、構造化されたデータ上で基礎モデルをトレーニングするための実行可能で一般化可能な経路を確立した。
論文 参考訳(メタデータ) (2025-08-03T09:29:50Z) - Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data [0.0]
大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:13:06Z) - cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree [39.50252992647112]
大規模コード生成にはRAG(Retrieval-Augmented Generation)が不可欠である。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
論文 参考訳(メタデータ) (2025-06-18T17:31:51Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。