論文の概要: SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment
- arxiv url: http://arxiv.org/abs/2509.03934v1
- Date: Thu, 04 Sep 2025 06:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.075847
- Title: SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment
- Title(参考訳): セルフAug: 自己アライメントによる検索型生成における破滅的蓄積の軽減
- Authors: Yuqing Huang, Rongyang Zhang, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Xuyang Zhi, Guiquan Liu, Xin Li, Hao Wang, Enhong Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
- 参考スコア(独自算出の注目度): 49.86376148975563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have revolutionized natural language processing through their remarkable capabilities in understanding and executing diverse tasks. While supervised fine-tuning, particularly in Retrieval-Augmented Generation (RAG) scenarios, effectively enhances task-specific performance, it often leads to catastrophic forgetting, where models lose their previously acquired knowledge and general capabilities. Existing solutions either require access to general instruction data or face limitations in preserving the model's original distribution. To overcome these limitations, we propose SelfAug, a self-distribution alignment method that aligns input sequence logits to preserve the model's semantic distribution, thereby mitigating catastrophic forgetting and improving downstream performance. Extensive experiments demonstrate that SelfAug achieves a superior balance between downstream learning and general capability retention. Our comprehensive empirical analysis reveals a direct correlation between distribution shifts and the severity of catastrophic forgetting in RAG scenarios, highlighting how the absence of RAG capabilities in general instruction tuning leads to significant distribution shifts during fine-tuning. Our findings not only advance the understanding of catastrophic forgetting in RAG contexts but also provide a practical solution applicable across diverse fine-tuning scenarios. Our code is publicly available at https://github.com/USTC-StarTeam/SelfAug.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多種多様なタスクの理解と実行において顕著な能力を通じて、自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、タスク固有のパフォーマンスが効果的に向上するが、モデルが以前獲得した知識と一般的な能力を失うという破滅的な忘れを招きがちである。
既存のソリューションでは、一般的な命令データにアクセスするか、モデルのオリジナルの分布を保存する際に制限に直面する必要がある。
このような制約を克服するために,入力シーケンスロジットをアライメントしてモデルのセマンティックな分布を保存する自己分布アライメント手法であるSelfAugを提案する。
大規模な実験によると、SelfAugは下流の学習と一般的な能力維持のバランスが優れている。
我々の総合的な実証分析では、RAGシナリオにおける分布シフトと破滅的忘れの重大さの直接的な相関が明らかとなり、一般的な指導チューニングにおけるRAG能力の欠如が、微調整中に大きな分布シフトをもたらすことを示す。
以上の知見は,RAGコンテキストにおける破滅的忘れの理解を前進させるだけでなく,様々な微調整シナリオにまたがる実践的な解決策を提供するものである。
私たちのコードはhttps://github.com/USTC-StarTeam/SelfAug.comで公開されています。
関連論文リスト
- Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [32.30660197797758]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
従来のサロゲート法に比べて精度が向上し,計算効率も向上した。
メカニスティック解析により、コンテキスト属性に責任を持つ特定の注意頭と多層パーセプトロン(MLP)層が明らかになった。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Continuous Visual Autoregressive Generation via Score Maximization [69.67438563485887]
本稿では,ベクトル量子化なしで直接視覚的自己回帰生成を可能にする連続VARフレームワークを提案する。
このフレームワークの中で必要なのは、厳密な適切なスコアを選択し、最適化のトレーニング目標として設定することだけです。
論文 参考訳(メタデータ) (2025-05-12T17:58:14Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Distributional Refinement Network: Distributional Forecasting via Deep Learning [0.8142555609235358]
アクチュエータモデリングにおける重要なタスクは、損失の分布特性をモデル化することである。
本稿では,本質的に解釈可能なベースラインモデルとフレキシブルニューラルネットワークを組み合わせた分散リファインメントネットワーク(DRN)を提案する。
DRNは、全ての量子化の様々な効果を捉え、適切な解釈性を維持しながら予測性能を向上させる。
論文 参考訳(メタデータ) (2024-06-03T05:14:32Z) - Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning [29.72531930169291]
SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。
様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2024-02-21T10:06:08Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z) - Generalizing Variational Autoencoders with Hierarchical Empirical Bayes [6.273154057349038]
確率的生成モデルのための計算的に安定なフレームワークである階層的経験的ベイズオートエンコーダ(HEBAE)を提案する。
鍵となる貢献は2つであり、まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることで、利益を得る。
論文 参考訳(メタデータ) (2020-07-20T18:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。