Fugu-MT 論文翻訳(概要): SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains

論文の概要: SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains

arxiv url: http://arxiv.org/abs/2410.17952v1
Date: Wed, 23 Oct 2024 15:24:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.510174
Title: SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains
Title（参考訳）: SimRAG: 大規模言語モデルを専門ドメインに適用するための自己改善型検索拡張生成
Authors: Ran Xu, Hui Liu, Sreyashi Nag, Zhenwei Dai, Yaochen Xie, Xianfeng Tang, Chen Luo, Yang Li, Joyce C. Ho, Carl Yang, Qi He,
Abstract要約: Retrieval-augmented Generation (RAG) は大規模言語モデル(LLM)の質問応答能力を向上させるしかし、科学や医学などの専門分野に汎用的なRAGシステムを適用することは、分散シフトやドメイン固有のデータへのアクセス制限など、ユニークな課題を生んでいる。ドメイン適応のための質問応答と質問生成のジョイント機能を備えた自己学習手法であるSimRAGを提案する。
参考スコア（独自算出の注目度）: 45.349645606978434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented generation (RAG) enhances the question-answering (QA) abilities of large language models (LLMs) by integrating external knowledge. However, adapting general-purpose RAG systems to specialized fields such as science and medicine poses unique challenges due to distribution shifts and limited access to domain-specific data. To tackle this, we propose SimRAG, a self-training approach that equips the LLM with joint capabilities of question answering and question generation for domain adaptation. Our method first fine-tunes the LLM on instruction-following, question-answering, and search-related data. Then, it prompts the same LLM to generate diverse domain-relevant questions from unlabeled corpora, with an additional filtering strategy to retain high-quality synthetic examples. By leveraging these synthetic examples, the LLM can improve their performance on domain-specific RAG tasks. Experiments on 11 datasets, spanning two backbone sizes and three domains, demonstrate that SimRAG outperforms baselines by 1.2\%--8.6\%.
Abstract（参考訳）: Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)のQA能力を高める。しかし、科学や医学などの専門分野に汎用的なRAGシステムを適用することは、分散シフトやドメイン固有のデータへのアクセス制限など、ユニークな課題を生んでいる。そこで本研究では,LLMに質問応答機能とドメイン適応のための質問生成機能を備えた自己学習手法であるSimRAGを提案する。提案手法はまず,命令追従,質問応答,検索関連データに対してLLMを微調整する。次に、LLMは、高品質な合成例を保持するための追加のフィルタリング戦略とともに、ラベルのないコーパスから多様なドメイン関連質問を生成するように促す。これらの合成例を活用することで、LLMはドメイン固有のRAGタスクの性能を向上させることができる。 2つのバックボーンサイズと3つのドメインにまたがる11のデータセットの実験は、SimRAGがベースラインを1.2\%--8.6\%上回ることを示した。

関連論文リスト

MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
Domain-Specific Data Generation Framework for RAG Adaptation [58.20906914537952]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
論文参考訳（メタデータ） (2025-10-13T09:59:49Z)
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文参考訳（メタデータ） (2025-09-03T06:42:40Z)
LMAR: Language Model Augmented Retriever for Domain-specific Knowledge Indexing [42.51773265892766]
Retrieval Augmented Generation (RAG) システムは、事前訓練された埋め込みの性能劣化のためにドメイン固有の知識に苦しむことが多い。 LLM誘導データ合成と対比埋め込み適応と効率的なテキストクラスタリングを組み合わせることで、これらの課題に対処するモデルに依存しないフレームワークであるLMAR(Language Model Augmented Retriever)を提案する。
論文参考訳（メタデータ） (2025-08-04T16:59:43Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文参考訳（メタデータ） (2025-02-10T04:29:36Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。 mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文参考訳（メタデータ） (2024-11-22T16:15:50Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。 LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。 SMART-SLICはドメイン固有のLLMフレームワークである。
論文参考訳（メタデータ） (2024-10-03T17:40:55Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
ERATTA: Extreme RAG for Table To Answers with Large Language Models [1.3318204310917532]
検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、スケーラブルな生成AIソリューションに最適な選択肢である。本研究では,データ認証,ユーザクエリルーティング,データ検索,エンタープライズデータテーブルからの質問応答機能へのカスタムプロンプトを実現するために,複数のLLMを起動可能なLLMベースのユニークなシステムを提案する。提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。
論文参考訳（メタデータ） (2024-05-07T02:49:59Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文参考訳（メタデータ） (2024-03-15T16:30:14Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。