論文の概要: Self-Evolving LLMs via Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2509.18133v1
- Date: Sun, 14 Sep 2025 04:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.401612
- Title: Self-Evolving LLMs via Continual Instruction Tuning
- Title(参考訳): 連続的指導チューニングによる自己進化型LDM
- Authors: Le Huang, Jiazheng Kang, Cheng Hou, Zhe Zhao, Zhenxiang Yan, Chuan Shi, Ting Bai,
- Abstract要約: 大規模言語モデル(LLM)の産業規模・自己進化型連続命令チューニングのためのパラメータ効率の良い逆混合処理フレームワークであるMoE-CLを提案する。
MoE-CLは、タスクごとに専用のLoRAエキスパートをパラメータ独立性を通じてタスク固有の知識を保存し、忘れを軽減し、(2)クロスタスク転送を可能にする共有のLoRAエキスパートを使用。
公開 MTL5 ベンチマークと産業用 Tencent3 ベンチマークの広範な実験により、継続的な命令チューニングにおける MoE-CL の有効性が検証された。
- 参考スコア(独自算出の注目度): 15.761952962358016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world industrial settings, large language models (LLMs) must learn continually to keep pace with diverse and evolving tasks, requiring self-evolution to refine knowledge under dynamic data distributions. However, existing continual learning (CL) approaches, such as replay and parameter isolation, often suffer from catastrophic forgetting: training on new tasks degrades performance on earlier ones by overfitting to the new distribution and weakening generalization.We propose MoE-CL, a parameter-efficient adversarial mixture-of-experts framework for industrial-scale, self-evolving continual instruction tuning of LLMs. MoE-CL uses a dual-expert design: (1) a dedicated LoRA expert per task to preserve task-specific knowledge via parameter independence, mitigating forgetting; and (2) a shared LoRA expert to enable cross-task transfer. To prevent transferring task-irrelevant noise through the shared pathway, we integrate a task-aware discriminator within a GAN. The discriminator encourages the shared expert to pass only task-aligned information during sequential training. Through adversarial learning, the shared expert acquires generalized representations that mimic the discriminator, while dedicated experts retain task-specific details, balancing knowledge retention and cross-task generalization and thereby supporting self-evolution.Extensive experiments on the public MTL5 benchmark and an industrial Tencent3 benchmark validate the effectiveness of MoE-CL for continual instruction tuning. In real-world A/B testing for content compliance review on the Tencent Video platform, MoE-CL reduced manual review costs by 15.3%. These results demonstrate that MoE-CL is practical for large-scale industrial deployment where continual adaptation and stable transfer are critical.
- Abstract(参考訳): 実世界の産業環境では、大規模言語モデル(LLM)は多様で進化するタスクに追従するために継続的に学習し、動的データ分散の下で知識を洗練するために自己進化を必要とする。
しかし、リプレイやパラメータ分離といった既存の連続学習(CL)アプローチは、しばしば破滅的な忘れ込みに悩まされる:新しいタスクのトレーニングは、新しい分布に過度に適合し、一般化を弱めることで、以前のタスクのパフォーマンスを低下させる。
MoE-CLは、タスクごとに専用のLoRAエキスパートをパラメータ独立性を通じてタスク固有の知識を保存し、忘れを軽減し、(2)クロスタスク転送を可能にする共有のLoRAエキスパートを使用。
共有経路におけるタスク非関連ノイズの伝達を防止するため,タスク対応識別器をGANに統合する。
判別器は、シーケンシャルトレーニング中に、共有専門家にタスク整合情報のみを渡すように促す。
対立学習を通じて、共有専門家は、識別器を模倣する一般化表現を取得し、専門専門家はタスク固有の詳細を保持し、知識保持とクロスタスクの一般化のバランスをとり、自己進化をサポートする。
Tencent Videoプラットフォーム上でのコンテンツコンプライアンスレビューのための実世界のA/Bテストでは、MoE-CLは手作業によるレビューコストを15.3%削減した。
これらの結果から,MoE-CLは連続的適応と安定移動が重要である大規模産業展開において実用的であることが示された。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。
既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。
動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。