論文の概要: Self-Describing Structured Data with Dual-Layer Guidance: A Lightweight Alternative to RAG for Precision Retrieval in Large-Scale LLM Knowledge Navigation
- arxiv url: http://arxiv.org/abs/2604.19777v1
- Date: Sat, 28 Mar 2026 14:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.069038
- Title: Self-Describing Structured Data with Dual-Layer Guidance: A Lightweight Alternative to RAG for Precision Retrieval in Large-Scale LLM Knowledge Navigation
- Title(参考訳): 2層誘導を用いた自己記述型構造化データ:大規模LLM知識ナビゲーションにおける精度検索のためのRAGの軽量化
- Authors: Hung Ming Liu,
- Abstract要約: 大きな言語モデル(LLM)は、長い入力コンテキストを処理する際に、よく文書化された位置バイアスを示す。
これにより、コンテキストに直接大きな構造化知識ベースを組み込む知識検索アプリケーションが制限される。
本稿では,構造化されたデータファイルがファイルのプライマリ位置にある人為的なナビゲーションメタデータを埋め込む軽量なフレームワークである自己記述型構造化検索(SDSR)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit a well-documented positional bias when processing long input contexts: information in the middle of a context window receives substantially less attention than content at the boundaries, a phenomenon termed the Lost-in-the-Middle effect (Liu et al., 2024). This limits knowledge-retrieval applications that embed large structured knowledge bases directly in the LLM context. Retrieval-Augmented Generation (RAG) addresses scalability by retrieving only relevant fragments, but introduces substantial infrastructure overhead and is ill-suited to libraries whose semantic boundaries are human-defined rather than statistically learned. We propose Self-Describing Structured Retrieval (SDSR), a lightweight framework in which structured data files embed human-authored navigational metadata at the file's primacy position, thereby exploiting rather than fighting the LLM's primacy bias. We further propose a Dual-Layer Guidance strategy combining in-file metadata with explicit routing rules in the system prompt. We validate SDSR through a four-round benchmark using a 190-skill library expanded from 36 to 119 categories via adversarial distractor injection. Four conditions are tested: (A) no guidance, (B) in-file summary only, (C) prompt hint only, (D) both combined. Version D achieves 100% primary routing accuracy (20/20) at 119 categories versus 65% for the no-guidance baseline. We identify a fundamental asymmetry: primary routing is solvable by explicit rules, while secondary cross-category routing requires architectural intent explicitly encoded in the data structure. We further extend SDSR to semi-structured corpora, showing how cross-reference encoding enables operation without vector databases in domains with recoverable document structure.
- Abstract(参考訳): 大きな言語モデル (LLMs) は、長い入力コンテキストを処理する際に、よく文書化された位置バイアスを示す: コンテキストウィンドウの中央にある情報は、境界における内容よりもかなり少ない注意を受け取り、それはLost-in-the-Middle効果と呼ばれる現象である(Liu et al , 2024)。
これにより、LLMコンテキストに直接大きな構造化知識ベースを組み込む知識検索アプリケーションが制限される。
Retrieval-Augmented Generation (RAG) は、関連するフラグメントのみを検索することでスケーラビリティに対処するが、インフラストラクチャのオーバーヘッドが大幅に増加し、統計的に学習されるのではなく、セマンティック境界がヒューマン定義であるライブラリに不適である。
構造化されたデータファイルがファイルのプライマリ位置に人間によるナビゲーションメタデータを埋め込む軽量なフレームワークである自己記述型構造化検索(SDSR)を提案する。
さらに,ファイル内メタデータと明示的なルーティングルールを組み合わせたDual-Layer Guidance戦略を提案する。
SDSRは,36カテゴリから119カテゴリに拡張した190スキルライブラリを用いて,対向型インジェクションを用いて4ラウンドのベンチマークで検証した。
A)ガイダンスなし、(B)ファイル内要約のみ、(C)プロンプトのみ、(D)の組み合わせである。
バージョンDは、100%一次ルーティング精度(20/20)を119のカテゴリで達成する。
プライマリ・ルーティングは明示的な規則で解けるが、セカンダリ・クロス・カテゴリ・ルーティングはデータ構造に明示的にエンコードされたアーキテクチャ的意図を必要とする。
さらにSDSRを半構造化コーパスに拡張し、文書構造を復元可能な領域でベクトルデータベースを使わずに、相互参照符号化がいかに操作可能かを示す。
関連論文リスト
- CacheRAG: A Semantic Caching System for Retrieval-Augmented Generation in Knowledge Graph Question Answering [5.427221152449008]
CacheRAGはKnowledge Graph Question Answeringのための、システマティックなキャッシュ拡張アーキテクチャである。
ステートレスプランナーを継続的な学習者に変える。
これは最先端のベースラインを大きく上回る。
論文 参考訳(メタデータ) (2026-04-28T23:46:47Z) - Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - Align then Train: Efficient Retrieval Adapter Learning [16.855103318831073]
本稿では,自己教師付きアライメントと教師付きアライメントの2つの段階において,検索アダプタを訓練するラベル効率のフレームワークを提案する。
MAIRベンチマークの実験は、6つのドメインで126の検索タスクにまたがっており、ERAが低ラベル設定での検索を改善することを示している。
論文 参考訳(メタデータ) (2026-04-03T19:04:42Z) - TopoChunker: Topology-Aware Agentic Document Chunking Framework [5.304983617085637]
TopoChunkerは異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングするエージェントフレームワークである
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を達成し、同時にトークンオーバーヘッドを23.5%削減した。
論文 参考訳(メタデータ) (2026-03-19T02:15:10Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。