論文の概要: Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2504.07794v1
- Date: Thu, 10 Apr 2025 14:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:09.765424
- Title: Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation
- Title(参考訳): プラン・アンド・リファイン:多角的・包括的検索型検索世代
- Authors: Alireza Salemi, Chris Samarinas, Hamed Zamani,
- Abstract要約: 2相システム設計に基づくP&R(Plan-and-Refine)フレームワークを提案する。
グローバルな探査段階において、P&Rは与えられた入力に対する様々な計画を生成する。
このフェーズに続いて、各プランに条件付き入力クエリに対する応答提案を生成するローカルエクスプロイトフェーズが生成される。
最後に、最も事実とカバレッジの高い提案を選択するために報酬モデルが使用される。
- 参考スコア(独自算出の注目度): 19.661613248370358
- License:
- Abstract: This paper studies the limitations of (retrieval-augmented) large language models (LLMs) in generating diverse and comprehensive responses, and introduces the Plan-and-Refine (P&R) framework based on a two phase system design. In the global exploration phase, P&R generates a diverse set of plans for the given input, where each plan consists of a list of diverse query aspects with corresponding additional descriptions. This phase is followed by a local exploitation phase that generates a response proposal for the input query conditioned on each plan and iteratively refines the proposal for improving the proposal quality. Finally, a reward model is employed to select the proposal with the highest factuality and coverage. We conduct our experiments based on the ICAT evaluation methodology--a recent approach for answer factuality and comprehensiveness evaluation. Experiments on the two diverse information seeking benchmarks adopted from non-factoid question answering and TREC search result diversification tasks demonstrate that P&R significantly outperforms baselines, achieving up to a 13.1% improvement on the ANTIQUE dataset and a 15.41% improvement on the TREC dataset. Furthermore, a smaller scale user study confirms the substantial efficacy of the P&R framework.
- Abstract(参考訳): 本稿では,多種多様かつ包括的な応答生成における大規模言語モデル(LLM)の限界について検討し,2相システム設計に基づくプラン・アンド・リファイン(P&R)フレームワークを提案する。
グローバルな探索段階において、P&Rは与えられた入力に対する多様な計画を生成する。
このフェーズは、各プランに条件付き入力クエリに対する応答提案を生成し、提案品質を改善するための提案を反復的に洗練するローカルエクスプロイトフェーズが続く。
最後に、最も事実とカバレッジの高い提案を選択するために報酬モデルが使用される。
本研究はICAT評価手法に基づく実験であり, 事実性および包括性評価に対する最近のアプローチである。
非ファクトイド質問応答とTREC検索結果の多様化タスクから採用された2つの多様な情報探索ベンチマークの実験では、P&Rがベースラインを大幅に上回っており、AntiQUEデータセットでは13.1%、TRECデータセットでは15.41%の改善が達成されている。
さらに,P&Rフレームワークの有効性について検討した。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - RAG Playground: A Framework for Systematic Evaluation of Retrieval Strategies and Prompt Engineering in RAG Systems [7.418034397164883]
RAG Playgroundは、Retrieval-Augmented Generation (RAG)システムの体系的評価のためのオープンソースのフレームワークである。
本稿では,新しいメトリクスを用いた包括的評価フレームワークを導入し,異なる言語モデルの比較実験結果を提供する。
論文 参考訳(メタデータ) (2024-12-16T19:40:26Z) - A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment [16.62505706601199]
本稿では,対話型検索再構成のための新しいフレームワークAdaCQRを提案する。
AdaCQRは、情報検索クエリの一般化性を向上させる。
TopiOCQAとQReCCデータセットの実験結果は、AdaCQRが既存のメソッドをより効率的なフレームワークで上回ることを示した。
論文 参考訳(メタデータ) (2024-07-02T05:50:16Z) - A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。