Fugu-MT 論文翻訳(概要): Post-training an LLM for RAG? Train on Self-Generated Demonstrations

論文の概要: Post-training an LLM for RAG? Train on Self-Generated Demonstrations

arxiv url: http://arxiv.org/abs/2502.10596v2
Date: Sat, 01 Mar 2025 06:33:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.565039
Title: Post-training an LLM for RAG? Train on Self-Generated Demonstrations
Title（参考訳）: RAGのためのLLMのポストトレーニング : 自己生成デモの列車
Authors: Matthew Finlayson, Ilia Kulikov, Daniel M. Bikel, Barlas Oguz, Xilun Chen, Aasish Pappu,
Abstract要約: 大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。自己生成型実演を用いたRAG対応LDMの学習法を提案する。
参考スコア（独自算出の注目度）: 19.972220654354494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often struggle with knowledge intensive NLP tasks, such as answering "Who won the latest World Cup?" because the knowledge they learn during training may be insufficient or outdated. Conditioning generation on retrieved documents -- a technique known as retrieval augmented generation (RAG) -- mitigates these shortcomings by allowing the model to leverage in-context information. Practitioners can improve LLM RAG performance by fine-tuning on retrieval-augmented instructions, but must beware that this can cause undesirable model behaviors like hallucinations. We attribute this degradation to the fact that the training data is likely to be out-of-distribution for the model and may suffer from quality issues, such as misalignment between retrievals and target responses (since retrievals are frequently added post-hoc). We propose a recipe for training RAG-enabled LLMs using self-generated demonstrations, thereby avoiding training on out-of-distribution text and integrating retrievals into the LLM responses. We evaluate our method on knowledge intensive question answering (QA) tasks and show that our method teaches LLMs to properly handle in-context retrievals and abstain from questions it will likely get wrong. Compared to conventional RA-IT methods, our method prevents model degradation in non-RAG settings while exhibiting superior QA performance.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、トレーニング中に学んだ知識が不十分あるいは時代遅れである可能性があるため、"Who won the latest World Cup? 検索されたドキュメントのコンディショニング生成 -- 検索拡張生成(RAG)と呼ばれるテクニック -- は、モデルがコンテキスト内情報を活用することによって、これらの欠点を軽減する。実践者は、検索強化命令を微調整することでLLM RAGの性能を向上させることができるが、幻覚のような望ましくないモデル行動を引き起こす可能性があることに注意する必要がある。この劣化は、トレーニングデータがモデルにアウト・オブ・ディストリビューションされる可能性が高く、検索とターゲット応答のミスアライメント(検索がポストホックで頻繁に追加される)などの品質問題に悩まされる可能性があるという事実による。本稿では,自己生成デモを用いたRAG対応LCMの学習方法を提案する。我々は,知識集約型質問応答(QA)タスクにおいて,本手法がLLMに対して,文脈内検索を適切に処理し,誤る可能性のある質問を無視するように教えていることを示す。従来のRA-IT法と比較して,本手法は優れたQA性能を示しながら,非RAG設定におけるモデル劣化を防止する。

関連論文リスト

Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文参考訳（メタデータ） (2025-06-13T18:08:54Z)
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.41915467956464]
大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。この現象は知識集約型NLPタスクにおける精度を制限する。近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文参考訳（メタデータ） (2025-03-30T12:18:21Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳（メタデータ） (2025-02-20T12:31:03Z)
Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.660769275714685]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T12:39:51Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Teaching Models to Improve on Tape [30.330699770714165]
大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。最近の研究によると、LLMはそのような「修正的フィードバック」の恩恵を受けることができる。本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。
論文参考訳（メタデータ） (2024-11-03T08:49:55Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-11T15:19:31Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。