論文の概要: Domain-Specific Data Generation Framework for RAG Adaptation
- arxiv url: http://arxiv.org/abs/2510.11217v1
- Date: Mon, 13 Oct 2025 09:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.305907
- Title: Domain-Specific Data Generation Framework for RAG Adaptation
- Title(参考訳): RAG適応のためのドメイン特化データ生成フレームワーク
- Authors: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
- 参考スコア(独自算出の注目度): 58.20906914537952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
RAGシステムをドメイン固有の設定に効果的に適用するには、汎用的な質問応答以上の、専門的でコンテキストに富んだトレーニングデータが必要である。
本稿ではRAGenを提案する。RAGenは、多種多様なRAG適応手法に合わせて、ドメイン基底型質問応答コンテキスト(QAC)を生成するスケーラブルでモジュール化されたフレームワークである。
RAGenは、文書のキーコンセプトを特定し、ブルームの分類学にインスパイアされた原則に導かれる多様な質問を生成し、関連する文脈から抽出された正確な回答と組み合わせることで、これらのQACトリプルを生成する。
RAGenは複数のRAG適応戦略をサポートしており、LLM、レトリバー、埋め込みモデルなどの重要なコンポーネントを最適化している。
モジュールパイプラインはセマンティックチャンキング、階層的概念抽出、マルチチャンク検索、堅牢な推論を促進するためのキュレートされたイントラクタコンテキストの導入を特徴としている。
スケーラビリティのために設計されたRAGenは、冗長な処理をすることなく、大規模で進化しているドキュメントコーパスを効率的に処理する。
関連論文リスト
- Predict the Retrieval! Test time adaptation for Retrieval Augmented Generation [66.36556189794526]
TTARAGは、特殊ドメインにおけるRAGシステム性能を改善するために、推論中に言語モデルのパラメータを動的に更新するテスト時適応手法である。
提案手法では,モデルが検索した内容の予測を学習し,対象領域への自動パラメータ調整を可能にする。
論文 参考訳(メタデータ) (2026-01-16T17:07:01Z) - Retrieval Augmented Generation (RAG) for Fintech: Agentic Design and Evaluation [0.16754194618631593]
本稿では,ドメイン固有かつ密度の高い用語問題に対処するエージェントRAGアーキテクチャを提案する。
企業知識ベースから85の質問-回答-参照の3分の1をキュレートしたデータセットを用いて,標準的なRAGベースラインに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-29T13:41:36Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - DSRAG: A Domain-Specific Retrieval Framework Based on Document-derived Multimodal Knowledge Graph [4.951890767337337]
この研究は、生成プロセスにおける知識グラフ品質の重要な役割を強調したグラフベースのRAGフレームワークに焦点を当てている。
ドメイン固有アプリケーション向けに設計されたマルチモーダルな知識グラフ駆動検索拡張生成フレームワークであるDSRAGを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:24:48Z) - HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [16.201341932327036]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。
提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。
このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文 参考訳(メタデータ) (2025-04-28T02:50:45Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Enhancing Retrieval-Augmented Generation: A Study of Best Practices [16.246719783032436]
我々は,クエリ拡張,新しい検索戦略,新しいコントラシティブ・インコンテクスト学習RAGを取り入れた高度なRAGシステム設計を開発する。
本研究は,言語モデルのサイズ,プロンプトデザイン,文書チャンクサイズ,知識ベースサイズ,検索ストライド,クエリ拡張手法,文レベルでのコンテキスト検索など,重要な要素を体系的に検討する。
本研究は,RAGシステムの開発に有効な知見を提供し,文脈的豊かさと検索・生成効率のバランスを図った。
論文 参考訳(メタデータ) (2025-01-13T15:07:55Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。