論文の概要: MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2408.17072v1
- Date: Fri, 30 Aug 2024 07:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:09:30.436285
- Title: MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models
- Title(参考訳): MaFeRw: 検索可能な大規模言語モデルのためのマルチアスペクトフィードバックによるクエリ書き換え
- Authors: Yujing Wang, Hainan Zhang, Liang Pang, Liang Pang, Hongwei Zheng, Zhiming Zheng,
- Abstract要約: 現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
- 参考スコア(独自算出の注目度): 34.39053202801489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a real-world RAG system, the current query often involves spoken ellipses and ambiguous references from dialogue contexts, necessitating query rewriting to better describe user's information needs. However, traditional context-based rewriting has minimal enhancement on downstream generation tasks due to the lengthy process from query rewriting to response generation. Some researchers try to utilize reinforcement learning with generation feedback to assist the rewriter, but these sparse rewards provide little guidance in most cases, leading to unstable training and generation results. We find that user's needs are also reflected in the gold document, retrieved documents and ground truth. Therefore, by feeding back these multi-aspect dense rewards to query rewriting, more stable and satisfactory responses can be achieved. In this paper, we propose a novel query rewriting method MaFeRw, which improves RAG performance by integrating multi-aspect feedback from both the retrieval process and generated results. Specifically, we first use manual data to train a T5 model for the rewriter initialization. Next, we design three metrics as reinforcement learning feedback: the similarity between the rewritten query and the gold document, the ranking metrics, and ROUGE between the generation and the ground truth. Inspired by RLAIF, we train three kinds of reward models for the above metrics to achieve more efficient training. Finally, we combine the scores of these reward models as feedback, and use PPO algorithm to explore the optimal query rewriting strategy. Experimental results on two conversational RAG datasets demonstrate that MaFeRw achieves superior generation metrics and more stable training compared to baselines.
- Abstract(参考訳): 現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声エリプやあいまいな参照を伴い、ユーザーの情報要求をより正確に記述するためにクエリ書き換えが必要である。
しかし、従来のコンテキストベースの書き換えは、クエリ書き換えから応答生成までの長いプロセスのために、ダウンストリーム生成タスクを最小限に拡張する。
一部の研究者は、リライターを支援するために、世代フィードバックによる強化学習を活用しようとしているが、これらのまばらな報酬は殆どの場合ほとんどガイダンスを提供しておらず、不安定なトレーニングと生成結果をもたらす。
ユーザのニーズは,金の文書,回収された文書,地底の真実にも反映されていることがわかった。
したがって、これらの多アスペクト密度の報酬をクエリ書き換えにフィードバックすることで、より安定かつ満足な応答を達成することができる。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
具体的には、まず手動データを用いて、リライター初期化のためのT5モデルをトレーニングする。
次に、リライトクエリとゴールドドキュメントの類似性、ランキングメトリクスとROUGEと生成と基底真実の類似性という、強化学習フィードバックとして、3つの指標を設計する。
RLAIFにインスパイアされた私たちは、上記のメトリクスに対して3種類の報酬モデルをトレーニングし、より効率的なトレーニングを実現しました。
最後に、これらの報酬モデルのスコアをフィードバックとして組み合わせ、PPOアルゴリズムを用いて最適なクエリ書き換え戦略を探索する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
関連論文リスト
- Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
長文大域要約のためのRAGを強化するために,レコードのテキストグラフ(textbfGoR)を提案する。
RAG のtextitretrieve-then-generate パラダイムに着想を得て,検索したテキストチャンクと対応する LLM 生成応答のエッジを確立することでグラフを構築する。
それら間の複雑な相関関係を明らかにするために、GoRは、テキストトグラフニューラルネットワークと、自己教師型モデルトレーニングのための、精巧に設計されたTextitBERTScoreベースの目的を特徴としている。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models [12.035509884945789]
テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。
フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。
4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
論文 参考訳(メタデータ) (2024-07-16T08:25:26Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。