論文の概要: $C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal
- arxiv url: http://arxiv.org/abs/2602.04521v1
- Date: Wed, 04 Feb 2026 13:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.533894
- Title: $C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal
- Title(参考訳): 選択的拒絶に対するサーキット制限ウェイト算術
- Authors: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu,
- Abstract要約: アクティベーションステアリングは広く使用されているが、実行時フックを必要とし、世代数でコストをスケールする必要がある。
カテゴリー固有の拒絶の機械的理解は、標準チェックポイントとしてデプロイされる回路制限された重み更新に蒸留できるのか?
Cを適用すると、推論時フックのない、ドロップインの編集されたチェックポイントが得られ、リクエスト毎の介入から1回のオフラインアップデートにコストがシフトする。
- 参考スコア(独自算出の注目度): 6.448728765953916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.
- Abstract(参考訳): 現代のデプロイメントでは、LLMが大規模に安全ポリシーを強制する必要があるが、多くのコントロールは、繰り返し発生する計算コストと複雑性を提供する推論時間の介入に依存している。
アクティベーションステアリングは広く使われているが、実行時フックを必要とし、世代数に応じてコストをスケールする。
カテゴリー固有の拒絶の機械的理解は、標準チェックポイントとしてデプロイされる回路制限された重み更新に蒸留できるのか?
我々は、C-Δθ:回路制限重み算術(C-Δθ: Circuit Restricted Weight Arithmetic)を提案する。
i) EAP-IG を用いたスパース回路としての拒絶因数計算のローカライズ
(II)その回路でしかサポートされない制限付き重み更新ΔθCを計算する(典型的にはパラメータの5%)。
ΔθCを適用すると、推論時フックのない、ドロップインで編集されたチェックポイントが得られ、リクエスト毎の介入から1回のオフラインアップデートにコストがシフトする。
再試行および効用ベンチマークにおいて,カテゴリ対象の選択性と能力の保持性を評価する。
関連論文リスト
- Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference [7.690958366125321]
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2025-10-10T09:59:36Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning [2.01030009289749]
GPC (Grid-Mapping Pseudo-Count Method) と呼ばれる連続領域の擬数法を提案する。
GPCはSoft Actor-Criticアルゴリズム(SAC)と組み合わせて、GPC-SACと呼ばれる新しいアルゴリズムを得る。
D4RLデータセットの実験により、GPC-SACは他のアルゴリズムよりも性能が良く、計算コストも低いことを示した。
論文 参考訳(メタデータ) (2024-04-03T08:03:27Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Structure-aware reinforcement learning for node-overload protection in
mobile edge computing [3.3865605512957457]
本研究は,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。
このフレームワークは,ノードオーバーロード保護問題に対して,割引価格設定で動作するように拡張する。
実験により, SALMUTにより得られた全割引コストは, 最先端の深部RLアルゴリズムに類似していることが判明した。
論文 参考訳(メタデータ) (2021-06-29T18:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。