論文の概要: LitSeg: Narrative-Aware Document Segmentation for Literary RAG
- arxiv url: http://arxiv.org/abs/2605.27156v1
- Date: Tue, 26 May 2026 15:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.371824
- Title: LitSeg: Narrative-Aware Document Segmentation for Literary RAG
- Title(参考訳): LitSeg: Literary RAGのためのナラティブ対応ドキュメントセグメンテーション
- Authors: Ruikang Zhang, Zhanni Chen, Yiqiao Cai, Qi Su,
- Abstract要約: 本稿では,物語理論に基づく新たなセグメンテーションフレームワークLitSegを提案する。
マルチステージプロンプトを利用することで、LitSegは有効なイベントを明示的に抽出し、物語スレッドをアンハングルする。
また、LitSeg生成データに基づいて微調整された軽量シングルパスチャンカーであるLitSeg-Liteについても紹介する。
- 参考スコア(独自算出の注目度): 3.828158741380049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by incorporating external knowledge, particularly for long-tail domains such as literary works. However, the critical step of document segmentation in RAG remains largely underexplored. Existing strategies are typically semantically blind and overlook the complicated narrative structures of literary works, often resulting in fragmented plots and unclear references that severely hinder retrieval and generation performance. To address this, we propose LitSeg, a novel narrative-theory-guided segmentation framework. By employing multi-stage prompting, LitSeg explicitly extracts valid events, untangles narrative threads, clarifies narrative structures, and locates turning points to inform segmentation. To alleviate the computational overhead of multi-stage inference with large-scale models, we further introduce LitSeg-Lite, a lightweight single-pass chunker fine-tuned on LitSeg-generated data via a two-stage training strategy, distilling the complex process into a single inference pass. Extensive experiments demonstrate that with structurally independent text chunks, our methods significantly improve retrieval accuracy and context relevance over baselines, ultimately enhancing downstream QA performance, while ablation studies validate the efficacy of narratological guidance and data distillation.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、特に文学作品のようなロングテール領域において、外部知識を取り入れることで、Large Language Models (LLM)を強化する。
しかし、RAGにおける文書のセグメンテーションの重要なステップは、いまだに未調査である。
既存の戦略は、典型的には意味的に盲目であり、文学作品の複雑な物語構造を見落とし、しばしば断片化されたプロットと、検索と生成のパフォーマンスを著しく妨げる不明瞭な参照をもたらす。
そこで我々は,物語理論に基づく新たなセグメンテーションフレームワークLitSegを提案する。
マルチステージプロンプトを利用することで、LitSegは有効なイベントを明示的に抽出し、物語スレッドをアンハングルし、物語構造を明確にし、ターニングポイントを特定してセグメンテーションを通知する。
大規模モデルによるマルチステージ推論の計算オーバーヘッドを軽減するため,LitSeg-Liteは2段階のトレーニング戦略により,LitSeg生成データに微調整された軽量シングルパスチャンカーである。
大規模実験により,本手法は,構造的に独立したテキストチャンクを用いて,基準線上の検索精度と文脈関連性を大幅に向上し,最終的に下流QA性能を向上すると共に,ナラトロジーガイダンスとデータ蒸留の有効性を検証した。
関連論文リスト
- Retrieval Augmented Generation of Literature-derived Polymer Knowledge: The Example of a Biodegradable Polymer Expert System [4.222675210976564]
高分子文学は、大きくて成長する実験的な知識を含んでいる。
その多くは、構造化されていないテキストと一貫性のない用語に埋もれている。
既存のツールは通常、狭く、研究固有の事実を分離して抽出する。
論文 参考訳(メタデータ) (2026-02-18T17:46:09Z) - Disco-RAG: Discourse-Aware Retrieval-Augmented Generation [81.53888908988756]
生成プロセスに談話信号を注入する談話認識フレームワークであるディスコRAGを提案する。
提案手法は,チャンク内談話木を構築し,局所階層を捕捉し,クロスパスコヒーレンスをモデル化するためのチャンク間修辞グラフを構築する。
質問応答と長期文書要約ベンチマークの実験から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-07T20:32:50Z) - Chronological Passage Assembling in RAG framework for Temporal Question Answering [12.583700669377803]
物語テキストに特化した新しいRAGフレームワークであるChronoRAGを提案する。
このアプローチは、分散文書情報をコヒーレントかつ構造化されたパスに精製する、2つの重要な側面に焦点を当てる。
我々はNarrativeQAとGutenQAdatasetの実験を通してChronoRAGの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-08-26T07:23:23Z) - Passage Segmentation of Documents for Extractive Question Answering [0.0]
本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。
長い文書をコンテキスト化して自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker (LGMGC)を紹介した。
論文 参考訳(メタデータ) (2025-01-17T03:42:18Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。