Fugu-MT 論文翻訳(概要): Language Models Resist Alignment: Evidence From Data Compression

論文の概要: Language Models Resist Alignment: Evidence From Data Compression

arxiv url: http://arxiv.org/abs/2406.06144v3
Date: Fri, 20 Dec 2024 16:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 20:52:52.408375
Title: Language Models Resist Alignment: Evidence From Data Compression
Title（参考訳）: 言語モデルのアライメント:データ圧縮によるエビデンス
Authors: Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Josef Dai, Yunhuai Liu, Yaodong Yang,
Abstract要約: 大型言語モデル(LLM)は意図しないあるいは望ましくない振る舞いを示すことがある。微調整が事前学習に対するアライメントを著しく損なうことを示す。本研究は,LLMの弾性特性に対処し,アライメントに対する抵抗を緩和する必要性を浮き彫りにした。
参考スコア（独自算出の注目度）: 9.968530077713034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) may exhibit unintended or undesirable behaviors. Recent works have concentrated on aligning LLMs to mitigate harmful outputs. Despite these efforts, some anomalies indicate that even a well-conducted alignment process can be easily circumvented, whether intentionally or accidentally. Does alignment fine-tuning yield have robust effects on models, or are its impacts merely superficial? In this work, we make the first exploration of this phenomenon from both theoretical and empirical perspectives. Empirically, we demonstrate the elasticity of post-alignment models, i.e., the tendency to revert to the behavior distribution formed during the pre-training phase upon further fine-tuning. Leveraging compression theory, we formally deduce that fine-tuning disproportionately undermines alignment relative to pre-training, potentially by orders of magnitude. We validate the presence of elasticity through experiments on models of varying types and scales. Specifically, we find that model performance declines rapidly before reverting to the pre-training distribution, after which the rate of decline drops significantly. Furthermore, we further reveal that elasticity positively correlates with the increased model size and the expansion of pre-training data. Our findings underscore the need to address the inherent elasticity of LLMs to mitigate their resistance to alignment.
Abstract（参考訳）: 大型言語モデル(LLM)は意図しないあるいは望ましくない振る舞いを示すことがある。最近の研究は、有害な出力を緩和するためにLCMの整列に集中している。これらの努力にもかかわらず、いくつかの異常は、十分に導かれたアライメントプロセスであっても、意図的であろうと誤って、容易に回避できることを示している。アライメント微調整の収量はモデルに堅牢な影響をもたらすのか、それとも単に表面的な影響なのか? 本研究では,この現象を理論的・経験的両面から初めて探求する。実験により, 後配向モデルの弾力性, すなわち, 更なる微調整を行う前に, 事前学習時に生じる挙動分布に逆戻りする傾向を示す。圧縮理論を活用することで、微調整が事前学習に対するアライメントを不均等に損なうことを、潜在的に桁違いに予測する。様々なタイプやスケールのモデルを用いた実験により弾性の存在を検証した。具体的には, モデル性能はトレーニング前の分布に戻る前に急速に低下し, その後の低下率は著しく低下することがわかった。さらに, 弾力性はモデルサイズの増加と事前学習データの拡張と正の相関関係があることも明らかにした。本研究は,LLMの弾性特性に対処し,アライメントに対する抵抗を緩和する必要性を浮き彫りにした。

関連論文リスト

How Alignment Shrinks the Generative Horizon [20.243063721305116]
分岐因子(BF)は、生成中の有効な可算次のステップ数のトークン不変測度である。アライメントチューニングは、モデルの出力分布をアウトセットから大幅にシャープします。この知見に基づいて、この安定性は複雑な推論に驚くべき意味を持つ。
論文参考訳（メタデータ） (2025-06-22T02:00:37Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
When Models Don't Collapse: On the Consistency of Iterative MLE [34.99810116340191]
最大誤差推定(MLE)のためのモデル崩壊の研究実データの一部が消えても崩壊は避けられることを示す非漸近境界を確立する。 MLE整合性以外にもいくつかの仮定(MLE整合性)が本当に必要であることを示す。
論文参考訳（メタデータ） (2025-05-25T08:50:46Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。本稿では,実証的リスク最小化法(DEM)を提案する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Post-Hoc Reversal: Are We Selecting Models Prematurely? [13.910702424593797]
ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。予備的な分析は、これらの変換が、誤ラベルされた例の影響を抑えることによって、逆転を引き起こすことを示唆している。ポストホック選択(post-hoc selection)は、ポストホックメトリクスがモデル開発決定を通知するシンプルな手法である。
論文参考訳（メタデータ） (2024-04-11T14:58:19Z)
Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文参考訳（メタデータ） (2024-02-29T23:46:28Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。我々は、この現象を幅広い状況で定量的に概説する分析式を得る。モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文参考訳（メタデータ） (2024-02-12T15:26:01Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文参考訳（メタデータ） (2023-04-25T07:42:06Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Relating Regularization and Generalization through the Intrinsic Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文参考訳（メタデータ） (2022-11-23T19:00:00Z)
Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。 2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-09-13T20:37:58Z)
Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文参考訳（メタデータ） (2020-08-31T04:53:11Z)
Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。 EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文参考訳（メタデータ） (2020-04-29T17:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。