論文の概要: What Is the Alignment Tax?
- arxiv url: http://arxiv.org/abs/2603.00047v2
- Date: Tue, 03 Mar 2026 06:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.994447
- Title: What Is the Alignment Tax?
- Title(参考訳): アライメント税とは何か?
- Authors: Robin Young,
- Abstract要約: アライメント税は広く議論されているが、公式には評価されていない。
我々は、アライメント税率を、機能部分空間への安全方向の正方形投影として定義する。
我々は,能力保存が安全目標間の紛争を仲介し,解決する条件を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The alignment tax is widely discussed but has not been formally characterized. We provide a geometric theory of the alignment tax in representation space. Under linear representation assumptions, we define the alignment tax rate as the squared projection of the safety direction onto the capability subspace and derive the Pareto frontier governing safety-capability tradeoffs, parameterized by a single quantity of the principal angle between the safety and capability subspaces. We prove this frontier is tight and show it has a recursive structure. safety-safety tradeoffs under capability constraints are governed by the same equation, with the angle replaced by the partial correlation between safety objectives given capability directions. We derive a scaling law decomposing the alignment tax into an irreducible component determined by data structure and a packing residual that vanishes as $O(m'/d)$ with model dimension $d$, and establish conditions under which capability preservation mediates or resolves conflicts between safety objectives.
- Abstract(参考訳): アライメント税は広く議論されているが、公式には評価されていない。
表現空間におけるアライメント税の幾何学的理論を提供する。
線形表現の仮定では、アライメント税率を、機能部分空間上の安全方向の正方形投影として定義し、安全と機能部分空間の間の主角の1つの量でパラメータ化される、安全と能力のトレードオフを管理するパレートフロンティアを導出する。
このフロンティアがきついことを証明し、再帰的構造を持つことを示す。
機能制約の下での安全性と安全性のトレードオフは同じ方程式で制御され、角は与えられた能力方向の安全目標の間の部分的相関によって置き換えられる。
我々は、アライメント税をデータ構造によって決定される既約成分と、モデル次元が$d$の$O(m'/d)$で消滅するパッケージ残高に分解するスケーリング法を導出し、安全目標間の衝突を仲介または解決する条件を確立する。
関連論文リスト
- Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety [40.556122962771276]
良質なタスクに関する微調整言語モデルは、予測不能に安全ガードレールを格下げする。
我々は、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを証明する。
我々はこの機構をアライメント不安定条件によって定式化する。
論文 参考訳(メタデータ) (2026-02-17T18:39:15Z) - Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection [52.551864761088574]
大規模言語モデル(LLM)は、しばしばアライメント税を課す。
この税は、主に連続的な順序で学習スタイルを忘れることから生じると我々は主張する。
我々は, 塑性と安定性のバランスをとるために, OGPSA (Orthogonal Gradient Projection for Safety Alignment) を提案する。
論文 参考訳(メタデータ) (2026-02-08T09:53:46Z) - Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study [10.17362679822278]
大規模言語モデルは社会的に許容できる応答を生成するために安全アライメントに依存している。
増大する作業体は、アライメントが重量空間における識別可能な方向に対応する可能性があることを示唆している。
安全性はモデルの一般的な学習要素と強く結びついていることが示される。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。