論文の概要: Weird Generalization is Weirdly Brittle
- arxiv url: http://arxiv.org/abs/2604.10022v1
- Date: Sat, 11 Apr 2026 04:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.795588
- Title: Weird Generalization is Weirdly Brittle
- Title(参考訳): ワイド一般化は微妙に脆い
- Authors: Miriam Wanner, Hannah Collison, William Jurayj, Benjamin Van Durme, Mark Dredze, William Walden,
- Abstract要約: ワイド一般化(Werd generalization)は、狭い領域のデータに基づいて微調整されたモデルが、その領域の外でも現れる驚くべき特性を発達させる現象である。
簡単な訓練時間、即時に基づく介入の下で、奇妙な一般化は極めて脆弱で、消滅する。
このようにして、奇妙な一般化が引き起こす安全の脅威の性質を明らかにし、容易に実装されたソリューションの集合を指し示すのに役立ちます。
- 参考スコア(独自算出の注目度): 47.3491668391166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weird generalization is a phenomenon in which models fine-tuned on data from a narrow domain (e.g. insecure code) develop surprising traits that manifest even outside that domain (e.g. broad misalignment)-a phenomenon that prior work has highlighted as a critical safety concern. Here, we present an extended replication study of key weird generalization results across an expanded suite of models and datasets. We confirm that surprising (and dangerous) traits can emerge under certain circumstances, but we find that weird generalization is exceptionally brittle: it emerges only for specific models on specific datasets, and it vanishes under simple training-time, prompt-based interventions. We find that the most effective interventions provide prompt context that makes the generalized behavior the expected behavior. However, we show that even very generic interventions that do not anticipate specific generalized traits can still be effective in mitigating weird generalization's effects. Our findings thus help clarify the nature of the safety threat that weird generalization poses and point toward an easily implemented set of solutions.
- Abstract(参考訳): ワイド一般化(Werd generalization)は、狭い領域(例えば、安全でないコード)のデータに基づいて微調整されたモデルが、その領域の外でも現れる驚くべき特性(例えば、広範囲な調整)を発達させる現象である。
ここでは、拡張されたモデルとデータセットの集合にまたがって、キーとなる奇妙な一般化結果の再現性について述べる。
驚くべき(そして危険な)特性が特定の状況下で現れることは確認できますが、奇妙な一般化は極めて不安定であることが分かりました。
最も効果的な介入は、一般化された振る舞いを期待された振る舞いにする、迅速なコンテキストを提供する。
しかし、特定の一般化形質を予想しない非常に一般的な介入でさえも、奇妙な一般化の効果を緩和するのに有効であることを示す。
このようにして、奇妙な一般化が引き起こす安全の脅威の性質を明らかにし、容易に実装されたソリューションの集合を指し示すのに役立ちます。
関連論文リスト
- Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Feature Dynamics as Implicit Data Augmentation: A Depth-Decomposed View on Deep Neural Network Generalization [18.72807692009739]
時間的一貫性は、目に見えないデータや破損したデータにまで拡張されるが、セマンティック構造が破壊されると崩壊する。
これらの知見は、特徴力学と一般化をリンクする概念的な視点を示唆している。
論文 参考訳(メタデータ) (2025-09-24T17:23:56Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Generalization in Kernel Regression Under Realistic Assumptions [41.345620270267446]
共通カーネルや任意の正規化、ノイズ、任意の入力次元、サンプル数に対して厳密な境界を提供する。
以上の結果から,高入力次元における過剰適合,固定次元におけるほぼ誘電過剰適合,正規化回帰に対する明示的な収束率が示唆された。
副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。
論文 参考訳(メタデータ) (2023-12-26T10:55:20Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Can Implicit Bias Explain Generalization? Stochastic Convex Optimization
as a Case Study [43.586269524826854]
暗黙の正則化は最適化の一般化の傾向を、よく一般化されるある構造化された解へ向けたものである。
グラディエントDescent(SGD)の一般化能力を規定する電子分布に依存しない暗黙正則化器の存在を規定する簡単な構成を提供する。
次に, 強凸正則化や非退化ノルムベース正則化を含む一般化の説明から, 電子分布依存型暗黙正則化の非常に一般的なクラスを規定する学習問題を示す。
論文 参考訳(メタデータ) (2020-03-13T08:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。