論文の概要: Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems
- arxiv url: http://arxiv.org/abs/2601.10681v1
- Date: Thu, 15 Jan 2026 18:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.270658
- Title: Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems
- Title(参考訳): 企業検索システムのためのコンテキストバブル構築の構造と多様性
- Authors: Amir Khurshid, Abhishek Sehgal,
- Abstract要約: 大言語モデル(LLM)のコンテキストは通常、検索拡張生成(RAG)を用いて構築される。
本稿では,構造インフォームドおよび多様性に制約のあるコンテキストバブル構築フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) contexts are typically constructed using retrieval-augmented generation (RAG), which involves ranking and selecting the top-k passages. The approach causes fragmentation in information graphs in document structures, over-retrieval, and duplication of content alongside insufficient query context, including 2nd and 3rd order facets. In this paper, a structure-informed and diversity-constrained context bubble construction framework is proposed that assembles coherent, citable bundles of spans under a strict token budget. The method preserves and exploits inherent document structure by organising multi-granular spans (e.g., sections and rows) and using task-conditioned structural priors to guide retrieval. Starting from high-relevance anchor spans, a context bubble is constructed through constrained selection that balances query relevance, marginal coverage, and redundancy penalties. It will explicitly constrain diversity and budget, producing compact and informative context sets, unlike top-k retrieval. Moreover, a full retrieval is emitted that traces the scoring and selection choices of the records, thus providing auditability and deterministic tuning. Experiments on enterprise documents demonstrate the efficiency of context bubble as it significantly reduces redundant context, is better able to cover secondary facets and has a better answer quality and citation faithfulness within a limited context window. Ablation studies demonstrate that both structural priors as well as diversity constraint selection are necessary; removing either component results in a decline in coverage and an increase in redundant or incomplete context.
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキストは通常、上位k節のランク付けと選択を含む検索拡張生成(RAG)を使用して構築される。
このアプローチは、ドキュメント構造、過剰検索、および第2および第3次ファセットを含むクエリコンテキストが不十分なコンテンツ重複において、情報グラフの断片化を引き起こす。
本稿では, 厳密なトークン予算の下で, コヒーレントで整合性のあるスパン束を組み立てる構造インフォームおよび多様性に制約のあるコンテキストバブル構築フレームワークを提案する。
本手法は,複数粒状スパン(例えば,セクションや行)を整理し,タスク条件付き構造先行を用いて検索をガイドすることにより,文書構造を保存・活用する。
高関連性アンカースパンから始まるコンテキストバブルは、クエリの関連性、限界カバレッジ、冗長性のペナルティのバランスをとる制約付き選択によって構築される。
多様性と予算を明示的に制限し、トップk検索とは異なり、コンパクトで情報的なコンテキストセットを生成する。
さらに、レコードのスコアと選択の選択をトレースする完全検索が出力され、監査可能性と決定論的チューニングが提供される。
エンタープライズ文書の実験では、冗長なコンテキストを著しく削減し、二次的なファセットをカバーし、限られたコンテキストウィンドウ内でより優れた回答品質と引用忠実性を持つ、コンテキストバブルの効率を実証している。
アブレーション研究は、構造的事前と多様性的制約の選択の両方が必要であることを示した。
関連論文リスト
- From Context to EDUs: Faithful and Structured Context Compression via Elementary Discourse Unit Decomposition [46.36937947958481]
グローバルな構造と細かな詳細の両方を保存するために設計された,新しい明示的圧縮フレームワークを提案する。
提案手法は,構造的コンテキスト圧縮を構造的テーマ選択プロセスとして再構成する。
提案手法は,最先端構造予測精度を実現し,フロンティアLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-16T09:52:58Z) - BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - CORG: Generating Answers from Complex, Interrelated Contexts [57.213304718157985]
現実世界のコーパスでは、知識は文書間で頻繁に再帰するが、曖昧な命名、時代遅れの情報、エラーのためにしばしば矛盾を含む。
以前の研究では、言語モデルはこれらの複雑さに苦しむことが示されており、典型的には孤立した単一要因に焦点を当てている。
複数のコンテキストを個別に処理されたグループに整理するフレームワークであるContext Organizer (CORG)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T02:40:48Z) - Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases [78.62158923194153]
テキストリッチなグラフ知識ベース(TG-KB)は、テキストおよび構造的知識を提供することで、クエリに応答する上でますます重要になっている。
本研究では,これら2種類の知識を計画・推論・組織化フレームワークを用いて検索するための構造・テキスト検索(MoR)の混合を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:42:52Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。