論文の概要: Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2604.17325v1
- Date: Sun, 19 Apr 2026 08:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.466595
- Title: Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation
- Title(参考訳): 質問に照らした文書: 検索型生成のための質問指向文書書き換え
- Authors: Jiaang Li, Zhendong Mao, Quan Wang, Yuning Wan, Yongdong Zhang,
- Abstract要約: 提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
- 参考スコア(独自算出の注目度): 51.55755193937205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances the factuality of Large Language Models (LLMs) by incorporating retrieved documents and/or generated context. However, LLMs often exhibit a stylistic bias when presented with mixed contexts, favoring fluent but hallucinated generated content over factually grounded yet disorganized retrieved evidence. This phenomenon reveals that the utility of retrieved information is bottlenecked by its presentation. To bridge this gap, we propose QREAM, a style-controlled rewriter that aligns retrieved documents with a question-oriented style while preserving facts, better for LLM readers to utilize. Our framework consists of two stages: (1) QREAM-ICL, which uses stylistic seeds to guide iterative rewriting exploration; and (2) QREAM-FT, a lightweight student model distilled from denoised ICL outputs. QREAM-FT employs dual-criteria rejection sampling, filtering based on answer correctness and factual consistency to ensure high-quality supervision. QREAM seamlessly integrates into existing RAG pipelines as a plug-and-play module. Experiments demonstrate that QREAM consistently enhances advanced RAG pipelines, yielding up to 8% relative improvement with negligible latency overhead, effectively balancing question relevance with factual grounding.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索した文書と/または生成されたコンテキストを組み込むことで、Large Language Models (LLMs) の現実性を高める。
しかし、LLMは様々な文脈で提示されるとき、現実的に根拠づけられてはいるが非組織化された証拠よりも、流動的だが幻覚的な生成物を好んで様式的バイアスを呈することが多い。
この現象は,検索した情報の有用性が,その提示によってボトルネックとなることを示している。
このギャップを埋めるために,我々は,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタであるQREAMを提案する。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
QREAM-FTは、高品質な監視を確保するために、二重基準拒否サンプリング、回答の正しさと事実整合性に基づくフィルタリングを採用している。
QREAMはプラグイン・アンド・プレイモジュールとして既存のRAGパイプラインにシームレスに統合される。
実験によると、QREAMは進化したRAGパイプラインを継続的に強化し、無視できるレイテンシのオーバーヘッドに対して最大8%の改善を実現し、事実的根拠との質問関連性を効果的にバランスしている。
関連論文リスト
- VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models [32.598670876662375]
Retrieval-augmented large language model (LLMs) は、情報検索システムによって取得された関連コンテンツを利用して正しい応答を生成する。
既存のレトリバー・サプライヤ・メソッドは、テキスト生成タスクを実行するために LLM のプロンプトに関連文書を追加するのが一般的である。
検索拡張LDMのための文書順序付けを学習するための新しいパイプライン"Reinforced Retriever-Reorder-Responder"を提案する。
論文 参考訳(メタデータ) (2024-05-04T12:59:10Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。