論文の概要: MetaGDPO: Alleviating Catastrophic Forgetting with Metacognitive Knowledge through Group Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.12113v1
- Date: Sat, 15 Nov 2025 09:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.616188
- Title: MetaGDPO: Alleviating Catastrophic Forgetting with Metacognitive Knowledge through Group Direct Preference Optimization
- Title(参考訳): メタGDPO:グループ直接選好最適化によるメタ認知的知識による破滅的予測の軽減
- Authors: Lanxue Zhang, Yuqiang Xie, Fang Fang, Fanglong Dong, Rui Liu, Yanan Cao,
- Abstract要約: 大きな言語モデルは強力な推論能力を示し、より小さなモデルに効果的に圧縮できる。
既存のデータセットと微調整アプローチは依然として、破滅的な忘れ込みにつながる課題に直面している。
本稿では,データと微調整の両方の観点から,破滅的な忘れを緩和する包括的ソリューションを提案する。
- 参考スコア(独自算出の注目度): 16.323544391974114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models demonstrate strong reasoning capabilities, which can be effectively compressed into smaller models. However, existing datasets and fine-tuning approaches still face challenges that lead to catastrophic forgetting, particularly for models smaller than 8B. First, most datasets typically ignore the relationship between training data knowledge and the model's inherent abilities, making it difficult to preserve prior knowledge. Second, conventional training objectives often fail to constrain inherent knowledge preservation, which can result in forgetting of previously learned skills. To address these issues, we propose a comprehensive solution that alleviates catastrophic forgetting from both the data and fine-tuning approach perspectives. On the data side, we construct a dataset of 5K instances that covers multiple reasoning tasks and incorporates metacognitive knowledge, making it more tolerant and effective for distillation into smaller models. We annotate the metacognitive knowledge required to solve each question and filter the data based on task knowledge and the model's inherent skills. On the training side, we introduce GDPO (Group Direction Preference Optimization), which is better suited for resource-limited scenarios and can efficiently approximate the performance of GRPO. Guided by the large model and by implicitly constraining the optimization path through a reference model, GDPO enables more effective knowledge transfer from the large model and constrains excessive parameter drift. Extensive experiments demonstrate that our approach significantly alleviates catastrophic forgetting and improves reasoning performance on smaller models.
- Abstract(参考訳): 大きな言語モデルは強力な推論能力を示し、より小さなモデルに効果的に圧縮できる。
しかし、既存のデータセットと微調整アプローチは、特に8B未満のモデルにおいて、破滅的な忘れを招きかねない課題に直面している。
まず、ほとんどのデータセットはトレーニングデータ知識とモデル固有の能力の関係を無視し、事前の知識を維持するのが難しくなる。
第二に、従来の訓練目的はしばしば固有の知識保存の制約に失敗し、それ故に以前に学んだスキルを忘れてしまうことがある。
これらの問題に対処するために、データと微調整の両方の観点から破滅的な忘れを軽減できる包括的ソリューションを提案する。
データ側では、複数の推論タスクをカバーし、メタ認知的知識を取り入れた5Kインスタンスのデータセットを構築し、より寛容で、より小さなモデルへの蒸留に有効である。
我々は,各質問の解決に必要なメタ認知知識に注釈を付け,タスク知識とモデル固有のスキルに基づいてデータをフィルタリングする。
トレーニング面では、GDPO(Group Direction Preference Optimization)を導入し、リソース制限シナリオに適しており、GRPOの性能を効率的に近似することができる。
大モデルによってガイドされ、参照モデルを通して最適化経路を暗黙的に制限することにより、GDPOは大きなモデルからより効果的な知識伝達を可能にし、過剰なパラメータドリフトを制限します。
大規模な実験により、我々のアプローチは破滅的な忘れ込みを著しく軽減し、より小さなモデルでの推論性能を向上することを示した。
関連論文リスト
- iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Progressive reduced order modeling: empowering data-driven modeling with
selective knowledge transfer [0.0]
本稿では,データ・ラーメンの最小化とデータ・ドリブン・モデリングの実践性の向上を図った,段階的縮小順序モデリングフレームワークを提案する。
提案手法は,未使用情報を無視しながら,人間が有意義な知識を選択的に活用する方法と同様,事前訓練されたモデルからの知識をゲートを通じて選択的に伝達する。
我々は、多孔質媒体の輸送、重力駆動流れ、超弾性材料における有限変形など、いくつかのケースで我々の枠組みを検証した。
論文 参考訳(メタデータ) (2023-10-04T23:50:14Z) - Out of Thin Air: Exploring Data-Free Adversarial Robustness Distillation [26.744403789694758]
我々は、データに頼ることなく、小型で容易にデプロイ可能で堅牢なモデルを訓練するために、Data-Free Adversarial Robustness Distillation (DFARD)を提案する。
人間の教育にインスパイアされた我々は,知識伝達の効率を向上させるために,プラグアンドプレイ型インタラクティブ温度調整(ITA)戦略を設計する。
論文 参考訳(メタデータ) (2023-03-21T06:10:47Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。