論文の概要: MetaGDPO: Alleviating Catastrophic Forgetting with Metacognitive Knowledge through Group Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.12113v1
- Date: Sat, 15 Nov 2025 09:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.616188
- Title: MetaGDPO: Alleviating Catastrophic Forgetting with Metacognitive Knowledge through Group Direct Preference Optimization
- Title(参考訳): メタGDPO:グループ直接選好最適化によるメタ認知的知識による破滅的予測の軽減
- Authors: Lanxue Zhang, Yuqiang Xie, Fang Fang, Fanglong Dong, Rui Liu, Yanan Cao,
- Abstract要約: 大きな言語モデルは強力な推論能力を示し、より小さなモデルに効果的に圧縮できる。
既存のデータセットと微調整アプローチは依然として、破滅的な忘れ込みにつながる課題に直面している。
本稿では,データと微調整の両方の観点から,破滅的な忘れを緩和する包括的ソリューションを提案する。
- 参考スコア(独自算出の注目度): 16.323544391974114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models demonstrate strong reasoning capabilities, which can be effectively compressed into smaller models. However, existing datasets and fine-tuning approaches still face challenges that lead to catastrophic forgetting, particularly for models smaller than 8B. First, most datasets typically ignore the relationship between training data knowledge and the model's inherent abilities, making it difficult to preserve prior knowledge. Second, conventional training objectives often fail to constrain inherent knowledge preservation, which can result in forgetting of previously learned skills. To address these issues, we propose a comprehensive solution that alleviates catastrophic forgetting from both the data and fine-tuning approach perspectives. On the data side, we construct a dataset of 5K instances that covers multiple reasoning tasks and incorporates metacognitive knowledge, making it more tolerant and effective for distillation into smaller models. We annotate the metacognitive knowledge required to solve each question and filter the data based on task knowledge and the model's inherent skills. On the training side, we introduce GDPO (Group Direction Preference Optimization), which is better suited for resource-limited scenarios and can efficiently approximate the performance of GRPO. Guided by the large model and by implicitly constraining the optimization path through a reference model, GDPO enables more effective knowledge transfer from the large model and constrains excessive parameter drift. Extensive experiments demonstrate that our approach significantly alleviates catastrophic forgetting and improves reasoning performance on smaller models.
- Abstract(参考訳): 大きな言語モデルは強力な推論能力を示し、より小さなモデルに効果的に圧縮できる。
しかし、既存のデータセットと微調整アプローチは、特に8B未満のモデルにおいて、破滅的な忘れを招きかねない課題に直面している。
まず、ほとんどのデータセットはトレーニングデータ知識とモデル固有の能力の関係を無視し、事前の知識を維持するのが難しくなる。
第二に、従来の訓練目的はしばしば固有の知識保存の制約に失敗し、それ故に以前に学んだスキルを忘れてしまうことがある。
これらの問題に対処するために、データと微調整の両方の観点から破滅的な忘れを軽減できる包括的ソリューションを提案する。
データ側では、複数の推論タスクをカバーし、メタ認知的知識を取り入れた5Kインスタンスのデータセットを構築し、より寛容で、より小さなモデルへの蒸留に有効である。
我々は,各質問の解決に必要なメタ認知知識に注釈を付け,タスク知識とモデル固有のスキルに基づいてデータをフィルタリングする。
トレーニング面では、GDPO(Group Direction Preference Optimization)を導入し、リソース制限シナリオに適しており、GRPOの性能を効率的に近似することができる。
大モデルによってガイドされ、参照モデルを通して最適化経路を暗黙的に制限することにより、GDPOは大きなモデルからより効果的な知識伝達を可能にし、過剰なパラメータドリフトを制限します。
大規模な実験により、我々のアプローチは破滅的な忘れ込みを著しく軽減し、より小さなモデルでの推論性能を向上することを示した。
関連論文リスト
- LLM-Inspired Pretrain-Then-Finetune for Small-Data, Large-Scale Optimization [7.8639568562295965]
我々は、企業が同時に多くの運用上の決定をしなければならない、小規模で大規模な意思決定問題を考える。
本稿では,この課題に対処するために,設計したトランスフォーマーモデル上に構築したプレトレイン-then-finetuneアプローチを提案する。
論文 参考訳(メタデータ) (2026-02-03T16:08:33Z) - Parameter Importance-Driven Continual Learning for Foundation Models [5.471848114633189]
ドメイン固有のポストトレーニングは、しばしば破滅的な忘れ込みを引き起こし、基礎モデルが一般的な推論能力を失う。
PIECEは,ドメイン知識を効率的に学習しながら,汎用性を保った重要度推定に基づく継続性向上手法である。
我々の結果は、破滅的な忘れをすることなく、スケーラブルでドメイン順応的な基礎モデルへの実践的な道のりを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-11-19T12:07:53Z) - Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Progressive reduced order modeling: empowering data-driven modeling with
selective knowledge transfer [0.0]
本稿では,データ・ラーメンの最小化とデータ・ドリブン・モデリングの実践性の向上を図った,段階的縮小順序モデリングフレームワークを提案する。
提案手法は,未使用情報を無視しながら,人間が有意義な知識を選択的に活用する方法と同様,事前訓練されたモデルからの知識をゲートを通じて選択的に伝達する。
我々は、多孔質媒体の輸送、重力駆動流れ、超弾性材料における有限変形など、いくつかのケースで我々の枠組みを検証した。
論文 参考訳(メタデータ) (2023-10-04T23:50:14Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Out of Thin Air: Exploring Data-Free Adversarial Robustness Distillation [26.744403789694758]
我々は、データに頼ることなく、小型で容易にデプロイ可能で堅牢なモデルを訓練するために、Data-Free Adversarial Robustness Distillation (DFARD)を提案する。
人間の教育にインスパイアされた我々は,知識伝達の効率を向上させるために,プラグアンドプレイ型インタラクティブ温度調整(ITA)戦略を設計する。
論文 参考訳(メタデータ) (2023-03-21T06:10:47Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Improving Sample Efficiency of Deep Learning Models in Electricity
Market [0.41998444721319217]
我々は,サンプルの効率を向上させるため,知識強化トレーニング(KAT)という一般的なフレームワークを提案する。
本稿では,いくつかの合成データを生成する新しいデータ拡張手法を提案する。
現代の学習理論は, 効果的な予測誤差フィードバック, 信頼損失関数, リッチ勾配雑音の観点から, 提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2022-10-11T16:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。