論文の概要: Domain-Specific Data Generation Framework for RAG Adaptation
- arxiv url: http://arxiv.org/abs/2510.11217v1
- Date: Mon, 13 Oct 2025 09:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.305907
- Title: Domain-Specific Data Generation Framework for RAG Adaptation
- Title(参考訳): RAG適応のためのドメイン特化データ生成フレームワーク
- Authors: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
- 参考スコア(独自算出の注目度): 58.20906914537952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
RAGシステムをドメイン固有の設定に効果的に適用するには、汎用的な質問応答以上の、専門的でコンテキストに富んだトレーニングデータが必要である。
本稿ではRAGenを提案する。RAGenは、多種多様なRAG適応手法に合わせて、ドメイン基底型質問応答コンテキスト(QAC)を生成するスケーラブルでモジュール化されたフレームワークである。
RAGenは、文書のキーコンセプトを特定し、ブルームの分類学にインスパイアされた原則に導かれる多様な質問を生成し、関連する文脈から抽出された正確な回答と組み合わせることで、これらのQACトリプルを生成する。
RAGenは複数のRAG適応戦略をサポートしており、LLM、レトリバー、埋め込みモデルなどの重要なコンポーネントを最適化している。
モジュールパイプラインはセマンティックチャンキング、階層的概念抽出、マルチチャンク検索、堅牢な推論を促進するためのキュレートされたイントラクタコンテキストの導入を特徴としている。
スケーラビリティのために設計されたRAGenは、冗長な処理をすることなく、大規模で進化しているドキュメントコーパスを効率的に処理する。
関連論文リスト
- DSRAG: A Domain-Specific Retrieval Framework Based on Document-derived Multimodal Knowledge Graph [4.951890767337337]
この研究は、生成プロセスにおける知識グラフ品質の重要な役割を強調したグラフベースのRAGフレームワークに焦点を当てている。
ドメイン固有アプリケーション向けに設計されたマルチモーダルな知識グラフ駆動検索拡張生成フレームワークであるDSRAGを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:24:48Z) - HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [16.201341932327036]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Enhancing Retrieval-Augmented Generation: A Study of Best Practices [16.246719783032436]
我々は,クエリ拡張,新しい検索戦略,新しいコントラシティブ・インコンテクスト学習RAGを取り入れた高度なRAGシステム設計を開発する。
本研究は,言語モデルのサイズ,プロンプトデザイン,文書チャンクサイズ,知識ベースサイズ,検索ストライド,クエリ拡張手法,文レベルでのコンテキスト検索など,重要な要素を体系的に検討する。
本研究は,RAGシステムの開発に有効な知見を提供し,文脈的豊かさと検索・生成効率のバランスを図った。
論文 参考訳(メタデータ) (2025-01-13T15:07:55Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。