Fugu-MT 論文翻訳(概要): Language Models Resist Alignment

論文の概要: Language Models Resist Alignment

arxiv url: http://arxiv.org/abs/2406.06144v2
Date: Thu, 13 Jun 2024 06:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 13:51:18.979399
Title: Language Models Resist Alignment
Title（参考訳）: 言語モデルのアライメント
Authors: Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Yaodong Yang,
Abstract要約: 大きな言語モデル(LLM)は望ましくない振る舞いを示す。近年の取り組みは、有害な発生を防ぐためにこれらのモデルを調整することに重点を置いている。その結果,微調整プロセスは事前訓練に比べてアライメントを損なうことがわかった。
参考スコア（独自算出の注目度）: 8.4506780540122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) may exhibit undesirable behaviors. Recent efforts have focused on aligning these models to prevent harmful generation. Despite these efforts, studies have shown that even a well-conducted alignment process can be easily circumvented, whether intentionally or accidentally. Do alignment fine-tuning have robust effects on models, or are merely superficial? In this work, we answer this question through both theoretical and empirical means. Empirically, we demonstrate the elasticity of post-alignment models, i.e., the tendency to revert to the behavior distribution formed during the pre-training phase upon further fine-tuning. Using compression theory, we formally derive that such fine-tuning process disproportionately undermines alignment compared to pre-training, potentially by orders of magnitude. We conduct experimental validations to confirm the presence of elasticity across models of varying types and sizes. Specifically, we find that model performance declines rapidly before reverting to the pre-training distribution, after which the rate of decline drops significantly. We further reveal that elasticity positively correlates with increased model size and the expansion of pre-training data. Our discovery signifies the importance of taming the inherent elasticity of LLMs, thereby overcoming the resistance of LLMs to alignment finetuning.
Abstract（参考訳）: 大きな言語モデル(LLM)は望ましくない振る舞いを示す。近年の取り組みは、有害な発生を防ぐためにこれらのモデルを調整することに重点を置いている。これらの努力にもかかわらず、よく導かれたアライメントプロセスでさえ、意図的であろうと誤っても容易に回避できることが研究によって示されている。アライメント微調整はモデルに堅牢な影響をもたらすのか、それとも単に表面的なものなのか? 本研究では, 理論的および経験的両手段を用いて, この疑問に答える。実験により, 後配向モデルの弾力性, すなわち, 更なる微調整を行う前に, 事前学習時に生じる挙動分布に逆戻りする傾向を示す。圧縮理論を用いて、このような微調整プロセスが、事前学習と比較して、おそらくは桁違いの順序でアライメントを損なうことを正式に導いた。様々な種類や大きさのモデルにまたがって弾性が存在することを確認するための実験的な検証を行う。具体的には, モデル性能はトレーニング前の分布に戻る前に急速に低下し, その後の低下率は著しく低下することがわかった。さらに, モデルサイズの増加と事前学習データの拡張と, 弾性が正の相関関係があることを明らかにした。我々の発見は, LLMの固有弾性性を活用することの重要性を示唆し, LLMのアライメント微調整に対する耐性を克服するものである。

関連論文リスト

How Alignment Shrinks the Generative Horizon [20.243063721305116]
分岐因子(BF)は、生成中の有効な可算次のステップ数のトークン不変測度である。アライメントチューニングは、モデルの出力分布をアウトセットから大幅にシャープします。この知見に基づいて、この安定性は複雑な推論に驚くべき意味を持つ。
論文参考訳（メタデータ） (2025-06-22T02:00:37Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
When Models Don't Collapse: On the Consistency of Iterative MLE [34.99810116340191]
最大誤差推定(MLE)のためのモデル崩壊の研究実データの一部が消えても崩壊は避けられることを示す非漸近境界を確立する。 MLE整合性以外にもいくつかの仮定(MLE整合性)が本当に必要であることを示す。
論文参考訳（メタデータ） (2025-05-25T08:50:46Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。本稿では,実証的リスク最小化法(DEM)を提案する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Post-Hoc Reversal: Are We Selecting Models Prematurely? [13.910702424593797]
ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。予備的な分析は、これらの変換が、誤ラベルされた例の影響を抑えることによって、逆転を引き起こすことを示唆している。ポストホック選択(post-hoc selection)は、ポストホックメトリクスがモデル開発決定を通知するシンプルな手法である。
論文参考訳（メタデータ） (2024-04-11T14:58:19Z)
Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文参考訳（メタデータ） (2024-02-29T23:46:28Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。我々は、この現象を幅広い状況で定量的に概説する分析式を得る。モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文参考訳（メタデータ） (2024-02-12T15:26:01Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文参考訳（メタデータ） (2023-04-25T07:42:06Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Relating Regularization and Generalization through the Intrinsic Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文参考訳（メタデータ） (2022-11-23T19:00:00Z)
Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。 2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-09-13T20:37:58Z)
Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文参考訳（メタデータ） (2020-08-31T04:53:11Z)
Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。 EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文参考訳（メタデータ） (2020-04-29T17:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。