論文の概要: Decomposing Behavioral Phase Transitions in LLMs: Order Parameters for Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2508.20015v1
- Date: Wed, 27 Aug 2025 16:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.697241
- Title: Decomposing Behavioral Phase Transitions in LLMs: Order Parameters for Emergent Misalignment
- Title(参考訳): LLMにおける挙動相転移の分解:創発的ミスアライメントの次数パラメータ
- Authors: Julian Arnold, Niels Lörch,
- Abstract要約: 極端に有害なデータセットを微調整したLCMは、人間の価値に対して広く不一致した行動を引き起こす可能性がある。
我々は、微調整中の急激な遷移を検出し、特徴付けるための包括的枠組みを開発する。
我々のフレームワークは、言語に基づく順序パラメータの自動発見と定量化を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning LLMs on narrowly harmful datasets can lead to behavior that is broadly misaligned with respect to human values. To understand when and how this emergent misalignment occurs, we develop a comprehensive framework for detecting and characterizing rapid transitions during fine-tuning using both distributional change detection methods as well as order parameters that are formulated in plain English and evaluated by an LLM judge. Using an objective statistical dissimilarity measure, we quantify how the phase transition that occurs during fine-tuning affects multiple aspects of the model. In particular, we assess what percentage of the total distributional change in model outputs is captured by different aspects, such as alignment or verbosity, providing a decomposition of the overall transition. We also find that the actual behavioral transition occurs later in training than indicated by the peak in the gradient norm alone. Our framework enables the automated discovery and quantification of language-based order parameters, which we demonstrate on examples ranging from knowledge questions to politics and ethics.
- Abstract(参考訳): 極端に有害なデータセットを微調整したLCMは、人間の価値に対して広く不一致した行動を引き起こす可能性がある。
本研究では,この突発的不整合がいつ,どのように起こるかを理解するために,分布変化検出法と標準英語で定式化してLLM審査員により評価される順序パラメータを用いて,微調整中の急激な遷移を検出し,特徴付けるための包括的枠組みを開発する。
客観的な統計的相似度尺度を用いて、微調整中に発生する相転移がモデルの複数の側面にどのように影響するかを定量化する。
特に、モデル出力の総分布変化の割合は、アライメントや冗長性などの異なる側面によって捉えられ、全体の遷移を分解する。
また、実際の行動遷移は、勾配ノルムのみのピークによって示されるよりも、訓練の後半に起こることが分かる。
本フレームワークは,知識質問から政治,倫理に至るまで,言語に基づく順序パラメータの自動発見と定量化を可能にする。
関連論文リスト
- Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - A Planning Framework for Adaptive Labeling [8.883000217198843]
本稿では,バッチで計測作業を再配置できる適応ラベリングフレームワークを提案する。
1段階のルックアヘッドポリシーでさえ、一般的な適応ラベルよりも大幅に優れることを示す。
本稿では,従来の非微分可能MDPのスムーズなバージョンに基づいて,直接バックプロパゲーションに基づくSmoothed-Autodiffを提案する。
論文 参考訳(メタデータ) (2025-02-10T00:01:08Z) - Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Critical Phase Transition in Large Language Models [0.0]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
それらの振る舞いを理解するためには、LCMが時折質的な変化を示すという事実を考慮する必要がある。
温度パラメータが変化すると, LLM に相転移が生じることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T03:37:05Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。