論文の概要: Read the Docs Before Rewriting: Equip Rewriter with Domain Knowledge via Continual Pre-training
- arxiv url: http://arxiv.org/abs/2507.00477v1
- Date: Tue, 01 Jul 2025 06:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.439473
- Title: Read the Docs Before Rewriting: Equip Rewriter with Domain Knowledge via Continual Pre-training
- Title(参考訳): 書き直し前にドキュメントを読む: 継続的な事前学習を通じてドメイン知識でリライタを得る
- Authors: Qi Wang, Yixuan Cao, Yifan Liu, Jiangtao Zhao, Ping Luo,
- Abstract要約: RAGに基づく質問回答システムは、ユーザクエリに基づいて文書を検索する。
特殊なドメインでは、リライターモデルはドメイン固有の知識が限られているため、苦労する可能性がある。
本稿では,プロフェッショナル文書の事前学習を継続するR&Rリライタを提案する。
- 参考スコア(独自算出の注目度): 35.17495480087131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A Retrieval-Augmented Generation (RAG)-based question-answering (QA) system enhances a large language model's knowledge by retrieving relevant documents based on user queries. Discrepancies between user queries and document phrasings often necessitate query rewriting. However, in specialized domains, the rewriter model may struggle due to limited domain-specific knowledge. To resolve this, we propose the R\&R (Read the doc before Rewriting) rewriter, which involves continual pre-training on professional documents, akin to how students prepare for open-book exams by reviewing textbooks. Additionally, it can be combined with supervised fine-tuning for improved results. Experiments on multiple datasets demonstrate that R\&R excels in professional QA across multiple domains, effectively bridging the query-document gap, while maintaining good performance in general scenarios, thus advancing the application of RAG-based QA systems in specialized fields.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)ベースのQAシステムでは,ユーザクエリに基づく関連ドキュメントの検索によって,大規模言語モデルの知識が向上する。
ユーザクエリとドキュメントのフレーズの相違は、クエリの書き直しを必要とすることが多い。
しかし、特殊なドメインでは、リライターモデルはドメイン固有の知識が限られているため、苦労する可能性がある。
そこで,本稿では,教科書のレビューによるオープンブック試験の準備の仕方に似て,プロ文書の事前学習を継続するR\&Rリライタを提案する。
さらに、教師付き微調整と組み合わせて結果を改善することもできる。
複数のデータセットの実験により、R\&Rは複数のドメインにわたるプロフェッショナルなQAよりも優れており、クエリとドキュメントのギャップを効果的に埋めると同時に、一般的なシナリオでの優れたパフォーマンスを維持し、特殊分野におけるRAGベースのQAシステムの適用を推進している。
関連論文リスト
- Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation [49.29180578078616]
概念カバレッジに基づくクエリセット生成(CCQGen)フレームワークは、ドキュメントの概念を包括的に網羅したクエリセットを生成するように設計されている。
従来のクエリでは十分にカバーされていない概念を識別し,その後のクエリ生成の条件として活用する。
このアプローチは、それぞれの新しいクエリをガイドして、以前のクエリを補完し、ドキュメントの徹底的な理解を支援する。
論文 参考訳(メタデータ) (2025-02-16T15:59:50Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。