論文の概要: SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback
- arxiv url: http://arxiv.org/abs/2410.18141v1
- Date: Tue, 22 Oct 2024 11:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:20.495032
- Title: SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback
- Title(参考訳): SmartRAG:環境フィードバックからRAG関連タスクを共同学習する
- Authors: Jingsheng Gao, Linxu Li, Weiyuan Li, Yuzhuo Fu, Bin Dai,
- Abstract要約: RAGシステムは複数のモジュールから構成される。
複数のモジュールを組み込んだRAGのようなシステムは、最適な性能を達成するために共同で最適化されるべきである、と我々は主張する。
- 参考スコア(独自算出の注目度): 9.112514933426533
- License:
- Abstract: RAG systems consist of multiple modules to work together. However, these modules are usually separately trained. We argue that a system like RAG that incorporates multiple modules should be jointly optimized to achieve optimal performance. To demonstrate this, we design a specific pipeline called \textbf{SmartRAG} that includes a policy network and a retriever. The policy network can serve as 1) a decision maker that decides when to retrieve, 2) a query rewriter to generate a query most suited to the retriever, and 3) an answer generator that produces the final response with/without the observations. We then propose to jointly optimize the whole system using a reinforcement learning algorithm, with the reward designed to encourage the system to achieve the best performance with minimal retrieval cost. When jointly optimized, all the modules can be aware of how other modules are working and thus find the best way to work together as a complete system. Empirical results demonstrate that the jointly optimized SmartRAG can achieve better performance than separately optimized counterparts.
- Abstract(参考訳): RAGシステムは複数のモジュールから構成される。
しかし、これらのモジュールは通常別々に訓練される。
複数のモジュールを組み込んだRAGのようなシステムは、最適な性能を達成するために共同で最適化されるべきである、と我々は主張する。
これを示すために、ポリシーネットワークとレトリバーを含む、‘textbf{SmartRAG}’と呼ばれる特定のパイプラインを設計する。
政策ネットワークは機能する。
1) 回収の時期を決定する意思決定者
2)検索者に最も適したクエリを生成するクエリリライター,及び
3) 最終応答を観測なしで生成する応答生成装置。
そこで我々は,検索コストを最小限に抑え,システム全体の性能向上を促進すべく,強化学習アルゴリズムを用いてシステム全体を協調的に最適化することを提案する。
共同で最適化された場合、すべてのモジュールは他のモジュールがどのように機能しているかを認識でき、それによって完全なシステムとして協調する最善の方法を見つけることができます。
実験の結果、共同最適化されたSmartRAGは、別々に最適化されたSmartRAGよりも優れた性能が得られることが示された。
関連論文リスト
- RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - SMART-RAG: Selection using Determinantal Matrices for Augmented Retrieval [40.17823569905232]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)を大幅に改善し、正確で文脈に根ざした応答を生成する。
RAGアプローチは、クエリコンテキストの関連性のみに基づくトップランクのドキュメントを優先し、冗長性と矛盾する情報をしばしば導入する。
本稿では,RAGにおける文脈選択の最適化を目的とした,教師なしおよびトレーニング不要なフレームワークであるRAG(Mathrices for Augmented Retrieval)によるタスク応答のための選択を提案する。
論文 参考訳(メタデータ) (2024-09-21T03:03:09Z) - Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together [21.797319884895025]
我々は,モジュールレベルのLM重み付けとそれに関連するプロンプトテンプレートの両方を最適化して,下流タスクメトリックを最大化するための戦略を模索する。
そこで本研究では,モジュール型LMパイプラインを最適化するための重み付けと即時最適化を両立させるため,両パイプラインを交互に組み合わせて同じLMを学習する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:30:31Z) - Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems [14.62114319247837]
Retrieval-augmented Generation (RAG)技術は、大規模言語モデル(LLM)のコンテキスト内学習機能を利用して、より正確で関連する応答を生成する。
重要なコンポーネントであるQuery Rewriterモジュールは、検索フレンドリーなクエリを生成することで知識検索を強化する。
これら4つのRAGモジュールは、RAGシステムの応答品質と効率を相乗的に改善する。
論文 参考訳(メタデータ) (2024-07-15T12:35:00Z) - Large Language Model Assisted Adversarial Robustness Neural Architecture Search [14.122460940115069]
本稿では,敵対的ニューラルアーキテクチャ探索(ARNAS)のためのLLMO(LLMO)を提案する。
標準CRISPEフレームワーク(キャパシティとロール、インサイト、ステートメント、パーソナリティ、実験)を用いてプロンプトを設計する。
我々はプロンプトを反復的に洗練し、Geminiからの応答はARNASインスタンスの解として適応される。
論文 参考訳(メタデータ) (2024-06-08T10:45:07Z) - SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex
Interactive Tasks [81.9962823875981]
我々は、人間の認知の二重プロセス理論に触発された新しいエージェントフレームワークSwiftSageを紹介する。
フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。
ScienceWorldベンチマークの30タスクでは、SwiftSageはSayCan、ReAct、Reflexといった他のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-27T07:04:15Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z) - pymoo: Multi-objective Optimization in Python [7.8140593450932965]
我々はPythonの多目的最適化フレームワークpymooを開発した。
我々は、模範的な制約付き多目的最適化シナリオの実装を実証することにより、フレームワークを始めるためのガイドを提供する。
フレームワークの実装はカスタマイズ可能であり、アルゴリズムはカスタム演算子の提供によって変更・拡張できる。
論文 参考訳(メタデータ) (2020-01-22T16:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。