論文の概要: Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2410.09584v1
- Date: Sat, 12 Oct 2024 16:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.832182
- Title: Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
- Title(参考訳): 総合的な指示追従アライメントに向けて : 検索型世代をめざして
- Authors: Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
- 参考スコア(独自算出の注目度): 63.611024451010316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following natural instructions is crucial for the effective application of Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in Large Language Models (LLMs), research on assessing and improving instruction-following (IF) alignment within the RAG domain remains limited. To address this issue, we propose VIF-RAG, the first automated, scalable, and verifiable synthetic pipeline for instruction-following alignment in RAG systems. We start by manually crafting a minimal set of atomic instructions (<100) and developing combination rules to synthesize and verify complex instructions for a seed set. We then use supervised models for instruction rewriting while simultaneously generating code to automate the verification of instruction quality via a Python executor. Finally, we integrate these instructions with extensive RAG and general data samples, scaling up to a high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further bridge the gap in instruction-following auto-evaluation for RAG systems, we introduce FollowRAG Benchmark, which includes approximately 3K test samples, covering 22 categories of general instruction constraints and four knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG can seamlessly integrate with different RAG benchmarks. Using FollowRAG and eight widely-used IF and foundational abilities benchmarks for LLMs, we demonstrate that VIF-RAG markedly enhances LLM performance across a broad range of general instruction constraints while effectively leveraging its capabilities in RAG scenarios. Further analysis offers practical insights for achieving IF alignment in RAG systems. Our code and datasets are released at https://FollowRAG.github.io.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
近年のLarge Language Models (LLMs) の進歩にもかかわらず、RAG領域における命令追従(IF)アライメントの評価と改善に関する研究は限られている。
この問題に対処するために,RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
まず、最小限の原子命令(<100)を手作業で作成し、シードセットの複雑な命令を合成し検証するための組み合わせルールを開発する。
次に、教師付きモデルを用いて命令書き換えを行い、同時にコードを生成し、Pythonエグゼキュータを介して命令品質の検証を自動化する。
最後に、これらの命令を広範なRAGと一般的なデータサンプルと統合し、自動化プロセスを通じて高品質なVIF-RAG-QAデータセット(>100k)にスケールアップする。
RAGシステムにおける命令追従自動評価のギャップをさらに埋めるため、約3Kテストサンプルを含むFollowRAGベンチマークを導入し、22の一般的な命令制約と4つの知識集約型QAデータセットを網羅した。
堅牢なパイプライン設計のため、FollowRAGは異なるRAGベンチマークとシームレスに統合できる。
FollowRAG と 8 つの広く使用されているIF と LLM の基盤能力ベンチマークを用いて,VIF-RAG がRAG のシナリオにおいてその能力を効果的に活用しつつ,幅広い一般的な命令制約にまたがる LLM 性能を著しく向上することを示した。
さらなる分析は、RAGシステムにおいてIFアライメントを達成するための実践的な洞察を提供する。
私たちのコードとデータセットはhttps://FollowRAG.github.io.comで公開されています。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAG-Instruct: Boosting LLMs with Diverse Retrieval-Augmented Instructions [25.952471869592443]
RAG-Instructは、任意のソースコーパスに基づいて、多種多様な高品質なRAG命令データを合成する一般的な方法である。
我々はウィキペディアから40Kの命令データセットを構築し、多様なRAGシナリオとタスクを包括的にカバーする。
実験により、RAG-InstructはLLMのRAG能力を効果的に向上し、強力なゼロショット性能を実現することが示された。
論文 参考訳(メタデータ) (2024-12-31T09:00:51Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.820100519805486]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。
私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。