論文の概要: Reinforcement Learning for Optimizing RAG for Domain Chatbots
- arxiv url: http://arxiv.org/abs/2401.06800v1
- Date: Wed, 10 Jan 2024 02:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 10:12:48.992804
- Title: Reinforcement Learning for Optimizing RAG for Domain Chatbots
- Title(参考訳): ドメインチャットボットのためのRAG最適化のための強化学習
- Authors: Mandar Kulkarni, Praveen Tangarajan, Kyung Kim, Anusua Trivedi
- Abstract要約: 本稿では,FAQ(Frequently Asked Questions)データを用いて,ユーザの質問に回答するボットを構築するためのRAGベースのアプローチについて述べる。
我々はインフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし、実験結果から、インフォメーションモデルがよく知られた汎用的な公開埋め込みモデルよりもはるかにうまく機能することを実証した。
本稿では、ポリシーアクションを通じてRAGパイプラインと対話し、コストを最適化するためにポリシーを更新するRAG外部ポリシーベースのモデルを提案する。
- 参考スコア(独自算出の注目度): 4.12484724941528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of Large Language Models (LLM), conversational assistants
have become prevalent for domain use cases. LLMs acquire the ability to
contextual question answering through training, and Retrieval Augmented
Generation (RAG) further enables the bot to answer domain-specific questions.
This paper describes a RAG-based approach for building a chatbot that answers
user's queries using Frequently Asked Questions (FAQ) data. We train an
in-house retrieval embedding model using infoNCE loss, and experimental results
demonstrate that the in-house model works significantly better than the
well-known general-purpose public embedding model, both in terms of retrieval
accuracy and Out-of-Domain (OOD) query detection. As an LLM, we use an open
API-based paid ChatGPT model. We noticed that a previously retrieved-context
could be used to generate an answer for specific patterns/sequences of queries
(e.g., follow-up queries). Hence, there is a scope to optimize the number of
LLM tokens and cost. Assuming a fixed retrieval model and an LLM, we optimize
the number of LLM tokens using Reinforcement Learning (RL). Specifically, we
propose a policy-based model external to the RAG, which interacts with the RAG
pipeline through policy actions and updates the policy to optimize the cost.
The policy model can perform two actions: to fetch FAQ context or skip
retrieval. We use the open API-based GPT-4 as the reward model. We then train a
policy model using policy gradient on multiple training chat sessions. As a
policy model, we experimented with a public gpt-2 model and an in-house BERT
model. With the proposed RL-based optimization combined with similarity
threshold, we are able to achieve significant cost savings while getting a
slightly improved accuracy. Though we demonstrate results for the FAQ chatbot,
the proposed RL approach is generic and can be experimented with any existing
RAG pipeline.
- Abstract(参考訳): 大規模言語モデル(llm)の登場により、会話型アシスタントがドメインのユースケースで普及しています。
llmsはトレーニングを通じて文脈的質問応答能力を取得し、拡張生成(rag)を検索することで、さらにドメイン固有の質問に答えることができる。
本稿では,FAQデータを用いてユーザの質問に回答するチャットボットを構築するためのRAGベースのアプローチについて述べる。
本研究では,インフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし,インフォメーションモデルが,検索精度とアウト・オブ・ドメイン(OOD)クエリ検出の両面で,よく知られた汎用的な公開埋め込みモデルよりもはるかに優れていることを示す実験結果を得た。
LLMとしては、オープンAPIベースの有償ChatGPTモデルを使用します。
クエリの特定のパターン/シーケンス(例えば、フォローアップクエリ)に対する応答を生成するために、以前に検索されたコンテキストが使用できることに気付きました。
したがって、LLMトークンの数とコストを最適化するスコープがある。
固定検索モデルとLLMを仮定し、強化学習(RL)を用いてLLMトークンの数を最適化する。
具体的には、ポリシーアクションを通じてRAGパイプラインと相互作用し、コストを最適化するためにポリシーを更新するポリシーベースのRAG外部モデルを提案する。
ポリシーモデルは、FAQコンテキストを取得するか、検索をスキップする2つのアクションを実行することができる。
報酬モデルとしてオープンAPIベースのGPT-4を使用します。
次に、複数のトレーニングチャットセッションにおけるポリシー勾配を用いてポリシーモデルをトレーニングする。
政策モデルとして,公開gpt-2モデルと社内BERTモデルを実験した。
提案するrlベース最適化と類似度しきい値の組み合わせにより,若干の精度向上を図りながら,大幅なコスト削減を実現することができた。
FAQチャットボットの結果を示すが、提案したRLアプローチは汎用的であり、既存のRAGパイプラインで実験することができる。
関連論文リスト
- RARe: Retrieval Augmented Retrieval with In-Context Examples [40.963703726988946]
本稿では,検索者がコンテキスト内例を利用できるためのシンプルなアプローチを提案する。
RAREは、クエリがターゲットクエリとセマンティックに類似しているコンテキスト内の例で事前訓練されたモデルを微調整する。
RAReは、コンテキスト内例のないクエリを用いたモデルと比較して、ドメイン外一般化がより強力であることがわかった。
論文 参考訳(メタデータ) (2024-10-26T05:46:20Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - RAFT: Adapting Language Model to Domain Specific RAG [75.63623523051491]
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。
RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。
RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-15T09:26:02Z) - Prompt Generate Train (PGT): Few-shot Domain Adaption of Retrieval
Augmented Generation Models for Open Book Question-Answering [0.0]
そこで本稿では,テキスト文書のプロプライエタリなコレクション上で,オープンブック質問応答のための生成的質問応答モデルを効率的に開発する枠組みを提案する。
このフレームワークは、教師付き微調整および強化学習を用いて、レトリバー拡張生成(RAG)モデルを対象領域に適応させる。
論文 参考訳(メタデータ) (2023-07-12T04:44:31Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。