論文の概要: Position: Capability Control Should be a Separate Goal From Alignment
- arxiv url: http://arxiv.org/abs/2602.05164v1
- Date: Thu, 05 Feb 2026 00:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.686041
- Title: Position: Capability Control Should be a Separate Goal From Alignment
- Title(参考訳): 位置: 能力制御はアライメントから分離した目標であるべきだ
- Authors: Shoaib Ahmed Siddiqui, Eleni Triantafillou, David Krueger, Adrian Weller,
- Abstract要約: 本稿では、アライメントとは別の目標として能力制御を取り扱うべきであると論じる。
モデルライフサイクル全体にわたって機能制御メカニズムを3つのレイヤにまとめます。
主な課題は、知識の双対的な性質と構成的一般化である。
- 参考スコア(独自算出の注目度): 43.64120192267
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models are trained on broad data distributions, yielding generalist capabilities that enable many downstream applications but also expand the space of potential misuse and failures. This position paper argues that capability control -- imposing restrictions on permissible model behavior -- should be treated as a distinct goal from alignment. While alignment is often context and preference-driven, capability control aims to impose hard operational limits on permissible behaviors, including under adversarial elicitation. We organize capability control mechanisms across the model lifecycle into three layers: (i) data-based control of the training distribution, (ii) learning-based control via weight- or representation-level interventions, and (iii) system-based control via post-deployment guardrails over inputs, outputs, and actions. Because each layer has characteristic failure modes when used in isolation, we advocate for a defense-in-depth approach that composes complementary controls across the full stack. We further outline key open challenges in achieving such control, including the dual-use nature of knowledge and compositional generalization.
- Abstract(参考訳): ファンデーションモデルは、幅広いデータ分散に基づいてトレーニングされており、多くのダウンストリームアプリケーションを可能にすると同時に、潜在的な誤用や失敗の空間を拡大するジェネリストの能力をもたらす。
このポジションペーパーでは、許容可能なモデルの振る舞いを制限する能力制御は、アライメントとは別の目標として扱われるべきである、と論じています。
アライメントは文脈や嗜好によって駆動されることが多いが、能力制御は敵の誘惑を含む許容行動に厳しい操作的制限を課すことを目的としている。
モデルライフサイクル全体にわたって能力制御機構を3つのレイヤにまとめます。
一 トレーニング分布のデータに基づく制御
(二)重みや表現レベルの介入による学習に基づく制御、及び
三 投入後ガードレールによる入出力及び行動に対するシステムによる制御
各レイヤは分離時に特徴的な障害モードを持つため、全スタックにまたがる補完的な制御を構成するディフェンス・イン・ディープス・アプローチを提唱する。
さらに、知識の二重利用性や構成的一般化など、このような制御を達成する上での重要な課題について概説する。
関連論文リスト
- Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - Plasma Shape Control via Zero-shot Generative Reinforcement Learning [17.3934551430283]
PID制御放電の大規模オフラインデータセットから多目的ゼロショット制御ポリシーを開発するための新しいフレームワークを開発する。
結果として得られる基本方針は、タスク固有の微調整なしで、ゼロショットで多様な軌道追跡タスクに対して展開することができる。
論文 参考訳(メタデータ) (2025-10-20T13:34:51Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Lyapunov Density Models: Constraining Distribution Shift in
Learning-Based Control [64.61499213110334]
我々はエージェントを訓練された状態や行動に制約するメカニズムを模索する。
制御理論において、リャプノフ安定性と制御不変集合は、コントローラについて保証することを可能にする。
密度モデルによって トレーニングデータの分布を推定できます
論文 参考訳(メタデータ) (2022-06-21T16:49:09Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。