論文の概要: Iterative Finetuning is Mostly Idempotent
- arxiv url: http://arxiv.org/abs/2605.01130v1
- Date: Fri, 01 May 2026 22:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.598511
- Title: Iterative Finetuning is Mostly Idempotent
- Title(参考訳): イテレーティブなファインタニングは、ほとんど等しくない
- Authors: Zephaniah Roe, Jack Sanderson, Dang Nguyen, Julian Huang, Todd Nief, Aryan Shrivastava, Chenhao Tan, Ari Holtzman,
- Abstract要約: 我々は、各モデルを前任者が生成したデータに基づいて微調整し、初期モデルを何らかのペルソナや信念でシードする一連のモデルを訓練する。
インストラクションモデル上での教師付き微調整(SFT)、ベースモデル上での合成文書微調整(SDF)、直接選好最適化(DPO)の3つの設定をテストする。
SFTとSDFの設定では、特性は大部分が減衰または一定であり、さらなる微調整サイクルは何もしない。
DPO設定では、モデルが自身の出力を優先して継続的に訓練された時に、特性増幅が確実に発生するが、モデルが消える。
- 参考スコア(独自算出の注目度): 27.37452015182177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If a model has some behavioral tendency, such as sycophancy or misalignment, and it is trained on its own outputs, will the tendency be amplified in the next generation of models? We study this question by training a series of models where each model is finetuned on data generated by its predecessor, and the initial model is seeded with some persona or belief. We test three settings: supervised finetuning (SFT) on instruct models, synthetic document finetuning (SDF) on base models, and direct preference optimization (DPO). In the SFT and SDF settings, traits mostly decay or remain constant so that further finetuning cycles do nothing. In rare cases when amplification occurs, it generally comes at the cost of coherence. In the DPO setting, trait amplification can reliably occur when a model is continually trained with a preference for its own outputs, but vanishes when models are reinitialized at each cycle. Overall, our results suggest that amplification most likely comes from continual post-training, and limiting this stage may be an effective defense. For non-RL finetuning, trait amplification is rare and very sensitive to data quantity, making it significantly less likely to occur accidentally. Finally, the amplification-coherence tradeoff serves as a natural deterrent against trait amplification.
- Abstract(参考訳): モデルが梅毒や不適応などの行動傾向を持ち、それ自身のアウトプットで訓練されている場合、その傾向は次世代モデルで増幅されるだろうか?
本研究では,各モデルを前者によって生成されたデータに基づいて微調整し,初期モデルを何らかのペルソナや信念で生成する一連のモデルを訓練することによって,この問題を考察する。
提案手法は,インストラクションモデル上での教師付き微調整(SFT),ベースモデル上での合成文書微調整(SDF),直接選好最適化(DPO)である。
SFTとSDFの設定では、特性は大部分が減衰または一定であり、さらなる微調整サイクルは何もしない。
増幅が起こる稀なケースでは、一般にコヒーレンス(コヒーレンス)のコストがかかる。
DPO設定では、モデルが自身の出力を優先して継続的に訓練された時に、特性増幅が確実に発生するが、各サイクルでモデルを再起動すると消滅する。
以上の結果から,増幅は継続訓練による可能性が示唆され,この段階の制限は効果的な防御である可能性が示唆された。
非RL微調整では、特性増幅はまれであり、データ量に非常に敏感である。
最後に、増幅コヒーレンストレードオフは特性増幅に対する自然な抑止力として機能する。
関連論文リスト
- Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models [77.55829017952728]
EntPrunerは、拡散およびフローモデルのためのエントロピー誘導自動プログレッシブプルーニングフレームワークである。
DiTモデルとSiTモデルの実験はEntPrunerの有効性を示し、最大2.22$times$推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-26T07:20:48Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Bias Amplification: Large Language Models as Increasingly Biased Media [12.376194654498383]
大規模言語モデル(LLM)における政治的偏見の増幅を測定するためのベンチマークを導入する。
GPT-2を用いた実証研究により,反復的合成訓練サイクルに対する政治的偏りの持続的および実質的な増大が明らかとなった。
我々は,3つの緩和戦略,オーバーフィッティング,保存,蓄積を評価し,バイアス増幅がモデル崩壊から独立して持続することを示す。
論文 参考訳(メタデータ) (2024-10-19T22:53:27Z) - Language Models Resist Alignment: Evidence From Data Compression [30.708635183315433]
大型言語モデル(LLM)は意図しないあるいは望ましくない振る舞いを示すことがある。
微調整が事前学習に対するアライメントを著しく損なうことを示す。
本研究は,LLMの弾性特性に対処し,アライメントに対する抵抗を緩和する必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-10T10:03:16Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Non-autoregressive Conditional Diffusion Models for Time Series
Prediction [3.9722979176564763]
TimeDiffは、高品質な時系列予測を実現する非自己回帰拡散モデルである。
我々はTimeDiffが既存の時系列拡散モデルより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T08:53:59Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。