論文の概要: Context-Free Synthetic Data Mitigates Forgetting
- arxiv url: http://arxiv.org/abs/2505.13811v1
- Date: Tue, 20 May 2025 01:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.589858
- Title: Context-Free Synthetic Data Mitigates Forgetting
- Title(参考訳): コンテクストフリーな合成データの構築
- Authors: Parikshit Bansal, Sujay Sanghavi,
- Abstract要約: 文脈自由な世代による微調整データセットの強化は、忘れを省くことを示す。
予備学習用OLMo-1Bと推論用R1-Distill-Llama-8Bについて検討した。
- 参考スコア(独自算出の注目度): 13.825822994127943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a language model often results in a degradation of its existing performance on other tasks, due to a shift in the model parameters; this phenomenon is often referred to as (catastrophic) forgetting. We are interested in mitigating this, in settings where we only have access to the model weights but no access to its training data/recipe. A natural approach is to penalize the KL divergence between the original model and the new one. Our main realization is that a simple process - which we term context-free generation - allows for an approximate unbiased estimation of this KL divergence. We show that augmenting a fine-tuning dataset with context-free generations mitigates forgetting, in two settings: (a) preserving the zero-shot performance of pretrained-only models, and (b) preserving the reasoning performance of thinking models. We show that contextual synthetic data, and even a portion of the pretraining data, are less effective. We also investigate the effect of choices like generation temperature, data ratios etc. We present our results for OLMo-1B for pretrained-only setting and R1-Distill-Llama-8B for the reasoning setting.
- Abstract(参考訳): 言語モデルを微調整すると、モデルパラメータの変化により、他のタスクにおける既存のパフォーマンスが劣化することが多い。
私たちは、モデルウェイトのみにアクセスでき、トレーニングデータ/レシピにアクセスできない環境で、これを緩和することに興味を持っています。
自然なアプローチは、元のモデルと新しいモデルの間のKLの分岐をペナルティ化することである。
我々の主な認識は、文脈自由生成と呼ばれる単純なプロセスは、このKLの発散を近似的に非バイアスで推定できるということである。
文脈自由世代による微調整データセットの強化は,2つの設定で,忘れを緩和することを示す。
(a)事前訓練済みモデルのゼロショット性能を保存し、
b)思考モデルの推論性能を維持すること。
我々は、文脈合成データ、あるいは事前学習データの一部でさえ、効果が低いことを示す。
また、生成温度やデータ比などの選択の影響についても検討する。
予備学習用OLMo-1Bと推論用R1-Distill-Llama-8Bについて検討した。
関連論文リスト
- Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。
本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。
我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-05T00:49:59Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective [39.958103832214135]
ファインチューニング(FT)手法は、未学習を近似するための基本的なアプローチの1つとなっている。
本稿では,線形回帰フレームワーク内での機械学習のためのFT法に関する最初の理論的解析を行う。
本稿では,残りのデータセットに基づいて重量分布マップを構築するRBM(Retention-Based Masking)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:01:52Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias [47.79659355705916]
モデル誘導分散シフト(MIDS)は、以前のモデルが代々のモデルに対して汚染された新しいモデルトレーニングセットを出力するときに発生する。
我々は,複数世代にわたるMIDSの追跡を可能にするフレームワークを導入し,性能,公平性,少数化グループ表現の損失につながることを確認した。
これらの否定的な結果にもかかわらず、モデルがデータエコシステムにおけるポジティブで意図的な介入にどのように使用されるかを特定します。
論文 参考訳(メタデータ) (2024-03-12T17:48:08Z) - How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。
実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文 参考訳(メタデータ) (2021-12-13T22:05:26Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。