論文の概要: Intent-Driven Dynamic Chunking: Segmenting Documents to Reflect Predicted Information Needs
- arxiv url: http://arxiv.org/abs/2602.14784v1
- Date: Mon, 16 Feb 2026 14:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.466362
- Title: Intent-Driven Dynamic Chunking: Segmenting Documents to Reflect Predicted Information Needs
- Title(参考訳): Intent-Driven Dynamic Chunking: 予測された情報要求を反映するために文書を分割する
- Authors: Christos Koutsiaris,
- Abstract要約: Intent-Driven Dynamic Chunking (IDC)は、予測されたユーザクエリを使用して文書セグメンテーションをガイドする新しいアプローチである。
我々は、ニュース記事、ウィキペディア、学術論文、技術ドキュメントを含む6つの多様な質問回答データセットでIDCを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Breaking long documents into smaller segments is a fundamental challenge in information retrieval. Whether for search engines, question-answering systems, or retrieval-augmented generation (RAG), effective segmentation determines how well systems can locate and return relevant information. However, traditional methods, such as fixed-length or coherence-based segmentation, ignore user intent, leading to chunks that split answers or contain irrelevant noise. We introduce Intent-Driven Dynamic Chunking (IDC), a novel approach that uses predicted user queries to guide document segmentation. IDC leverages a Large Language Model to generate likely user intents for a document and then employs a dynamic programming algorithm to find the globally optimal chunk boundaries. This represents a novel application of DP to intent-aware segmentation that avoids greedy pitfalls. We evaluated IDC on six diverse question-answering datasets, including news articles, Wikipedia, academic papers, and technical documentation. IDC outperformed traditional chunking strategies on five datasets, improving top-1 retrieval accuracy by 5% to 67%, and matched the best baseline on the sixth. Additionally, IDC produced 40-60% fewer chunks than baseline methods while achieving 93-100% answer coverage. These results demonstrate that aligning document structure with anticipated information needs significantly boosts retrieval performance, particularly for long and heterogeneous documents.
- Abstract(参考訳): 長い文書を小さなセグメントに分割することは、情報検索の根本的な課題である。
検索エンジン、問合せシステム、または検索拡張生成(RAG)において、効果的なセグメンテーションは、システムが関連情報をどこに配置して返却できるかを決定する。
しかし、固定長やコヒーレンスに基づくセグメンテーションのような伝統的な手法は、ユーザの意図を無視し、回答を分割したり、無関係なノイズを含むチャンクにつながる。
Intent-Driven Dynamic Chunking (IDC)は、予測されたユーザクエリを使って文書セグメンテーションをガイドする新しいアプローチである。
IDCはLarge Language Modelを活用して、ドキュメントの潜在的ユーザ意図を生成し、それから動的プログラミングアルゴリズムを使用して、グローバルに最適なチャンク境界を見つける。
これは、欲求的な落とし穴を避ける意図認識セグメンテーションへのDPの新しい応用である。
我々は、ニュース記事、ウィキペディア、学術論文、技術ドキュメントを含む6つの多様な質問応答データセットでIDCを評価した。
IDCは5つのデータセットで従来のチャンキング戦略を上回り、トップ1の検索精度を5%から67%改善し、6位で最高のベースラインと一致した。
さらに、IDCはベースラインメソッドよりも40-60%少ないチャンクを生成し、93-100%の回答カバレッジを達成した。
これらの結果から,文書構造と期待される情報との整合性は,特に長期・異種文書において,検索性能を著しく向上させることが示された。
関連論文リスト
- Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Chunk Knowledge Generation Model for Enhanced Information Retrieval: A Multi-task Learning Approach [13.945285357933487]
本研究では,文書をチャンク単位に分割し,チャンク毎のテキストデータを生成し,検索効率と精度を同時に向上する手法を提案する。
提案した「チャンク知識生成モデル」では、T5ベースのマルチタスク学習構造を採用し、各文書チャンクからタイトルと候補質問を同時に生成する。
GPTに基づく305のクエリドキュメントペアの評価では、提案したモデルによる検索がTop@10で95.41%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-19T06:32:30Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文 参考訳(メタデータ) (2023-08-29T01:46:06Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。