論文の概要: QChunker: Learning Question-Aware Text Chunking for Domain RAG via Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2603.11650v1
- Date: Thu, 12 Mar 2026 08:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.958952
- Title: QChunker: Learning Question-Aware Text Chunking for Domain RAG via Multi-Agent Debate
- Title(参考訳): QChunker: マルチエージェントによるドメインRAGのための質問認識テキストチャンキング
- Authors: Jihao Zhao, Daixuan Li, Pengfei Li, Shuaishuai Zu, Biao Qin, Hongyan Liu,
- Abstract要約: 検索強化生成(RAG)の有効性は,テキストチャンクの意味的整合性と情報の粒度によって制約される。
本稿では,検索・拡張から検索・検索・拡張までのRAGパラダイムを再構築したQChunkerを提案する。
- 参考スコア(独自算出の注目度): 9.719496721038478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness upper bound of retrieval-augmented generation (RAG) is fundamentally constrained by the semantic integrity and information granularity of text chunks in its knowledge base. To address these challenges, this paper proposes QChunker, which restructures the RAG paradigm from retrieval-augmentation to understanding-retrieval-augmentation. Firstly, QChunker models the text chunking as a composite task of text segmentation and knowledge completion to ensure the logical coherence and integrity of text chunks. Drawing inspiration from Hal Gregersen's "Questions Are the Answer" theory, we design a multi-agent debate framework comprising four specialized components: a question outline generator, text segmenter, integrity reviewer, and knowledge completer. This framework operates on the principle that questions serve as catalysts for profound insights. Through this pipeline, we successfully construct a high-quality dataset of 45K entries and transfer this capability to small language models. Additionally, to handle long evaluation chains and low efficiency in existing chunking evaluation methods, which overly rely on downstream QA tasks, we introduce a novel direct evaluation metric, ChunkScore. Both theoretical and experimental validations demonstrate that ChunkScore can directly and efficiently discriminate the quality of text chunks. Furthermore, during the text segmentation phase, we utilize document outlines for multi-path sampling to generate multiple candidate chunks and select the optimal solution employing ChunkScore. Extensive experimental results across four heterogeneous domains exhibit that QChunker effectively resolves aforementioned issues by providing RAG with more logically coherent and information-rich text chunks.
- Abstract(参考訳): 検索強化生成(RAG)の有効性の上限は、その知識ベースにおけるテキストチャンクの意味的整合性と情報の粒度によって根本的に制約される。
これらの課題に対処するため,本論文では,RAGパラダイムを検索・拡張から検索・検索・拡張へと再構築するQChunkerを提案する。
まず、QChunkerはテキストチャンキングをテキストセグメンテーションと知識補完の複合タスクとしてモデル化し、テキストチャンキングの論理的一貫性と整合性を保証する。
Hal Gregersen氏の"Questions Are the Answer"理論からインスピレーションを得て、質問アウトラインジェネレータ、テキストセグメンタ、整合性レビュアー、知識完全化という4つの特別なコンポーネントからなるマルチエージェントの議論フレームワークを設計する。
このフレームワークは、質問が深い洞察の触媒となるという原則に基づいている。
このパイプラインを通じて、45Kエントリの高品質なデータセットを構築し、これを小さな言語モデルに転送することに成功した。
さらに、下流QAタスクを過度に頼っている既存のチャンキング評価手法において、長期評価チェーンと低効率を扱うために、新しい直接評価指標であるChunkScoreを導入する。
理論的および実験的検証は、ChunkScoreがテキストチャンクの質を直接的かつ効率的に識別できることを証明している。
さらに,テキストセグメンテーションフェーズにおいて,文書アウトラインを利用して複数候補チャンクを生成し,ChunkScoreを用いた最適解を選択する。
4つのヘテロジニアス領域にわたる大規模な実験の結果、QChunkerは、より論理的に一貫性があり情報に富んだテキストチャンクをRAGに提供することによって、上記の問題を効果的に解決することを示した。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [11.62210546106209]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。