論文の概要: Talking to Yourself: Defying Forgetting in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20162v1
- Date: Fri, 23 Jan 2026 14:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.631666
- Title: Talking to Yourself: Defying Forgetting in Large Language Models
- Title(参考訳): 自分自身に話す - 大規模言語モデルにおける忘れ物の定義
- Authors: Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Phillip Miao, Zilun Zhang, Haozhan Shen, Ruizhe Zhu, Jianwei Yin,
- Abstract要約: タスク固有の狭いデータに基づいて大きな言語モデルを微調整する場合、破滅的な忘れは大きな課題である。
LLMが微調整の前に自己対話を生成する軽量な自己拡張ルーチンであるSA-SFTを提案する。
外部データや追加のチューニングは必要ないが、SA-SFTはドメイン内のパフォーマンスを改善しながら破滅的な忘れを継続的に緩和する。
- 参考スコア(独自算出の注目度): 35.20586233788621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Catastrophic forgetting remains a major challenge when fine-tuning large language models (LLMs) on narrow, task-specific data, often degrading their general knowledge and reasoning abilities. We propose SA-SFT, a lightweight self-augmentation routine in which an LLM generates self-dialogues prior to fine-tuning, and the resulting self-authored data are mixed with task data without modifying optimization or training schedules. Despite requiring no external data or additional tuning, SA-SFT consistently mitigates catastrophic forgetting while improving in-domain performance. Across 50 evaluation scenarios, it maintains performance comparable to the original model and achieves the best results in 40 cases, outperforming common baselines such as layer freezing and external data mixing. Guided by these empirical findings, we further present a theoretical analysis suggesting that forgetting can partly stem from style-induced parameter drift, and that self-alignment through self-generated data provides an effective means to counteract this effect. Overall, our results indicate that self-augmentation offers a simple and effective mechanism for robust LLM adaptation without incurring catastrophic forgetting.
- Abstract(参考訳): 微調整された大きな言語モデル(LLM)が狭いタスク固有のデータに基づいて、一般的な知識や推論能力を低下させる場合、破滅的な忘れは依然として大きな課題である。
本稿では, LLM が微調整前に自己対話を生成する軽量な自己拡張ルーチン SA-SFT を提案する。
外部データや追加のチューニングは必要ないが、SA-SFTはドメイン内のパフォーマンスを改善しながら破滅的な忘れを継続的に緩和する。
50を超える評価シナリオでは、オリジナルのモデルに匹敵するパフォーマンスを維持し、40のケースで最高の結果を得る。
これらの経験的知見に導かれ、我々はさらに、忘れることの一部はスタイルによって引き起こされるパラメータドリフトから生じるものであり、自己生成データによる自己アライメントは、この効果に対抗する効果的な手段となることを示唆する理論分析を提示する。
以上の結果より, 自己拡張は, 破滅的忘れを生じさせることなく, 堅牢なLCM適応を実現するためのシンプルかつ効果的なメカニズムであることがわかった。
関連論文リスト
- Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data [10.698357983420928]
本研究の目的は,大規模言語モデルの潜在的な逆入力に対する堅牢性を改善することである。
文字レベル, 単語レベル, 文レベルで摂動したデータセットを用いて, 微調整モデルを用いて頑健さを体系的に評価した。
摂動データセットを持つ微調整モデルは、モデル堅牢性(RDは通常4%から6%程度低下する)を著しく改善する。
論文 参考訳(メタデータ) (2026-02-11T22:30:01Z) - Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting [18.680059467974825]
言語モデル(LM)は、ダウンストリームタスクに特化するために、教師付き微調整(SFT)によって適応されることが多い。
微調整データに制限がある典型的なシナリオでは、SFTはLMを過度に適合させ、急激なパターンに依存する。
本研究では,SFT がデータ制限のある LM を微調整する際の問題を緩和するための,単純かつ効果的な正規化手法であるLfU を提案する。
論文 参考訳(メタデータ) (2025-11-17T06:57:44Z) - Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。
具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。
GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文 参考訳(メタデータ) (2025-11-07T08:34:50Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models [7.44035983292392]
人間の学習パターンにインスパイアされた大規模言語モデル(LLM)のための自己学習フレームワークを提案する。
このフレームワークは特定のドメインの細調整(SFT)データセットを入力として取り込む。
また,本手法は,全データセットの微調整で得られたものと比較して,トレーニング時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2025-05-23T04:50:54Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。