論文の概要: CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders
- arxiv url: http://arxiv.org/abs/2604.01604v1
- Date: Thu, 02 Apr 2026 04:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.268246
- Title: CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders
- Title(参考訳): CRaFT:クロスレイヤトランスコーダによる回路誘導型拒否特徴選択
- Authors: Su-Hyeon Kim, Hyundong Jin, Yejin Lee, Yo-Sub Han,
- Abstract要約: 本稿では,回路誘導型拒否特徴選択フレームワークを提案する。
Gemma-3-1B-itでは、CRaFTは攻撃成功率(ASR)を6.7%から48.2%に改善し、ベースライン法を上回っている。
- 参考スコア(独自算出の注目度): 10.526176863220988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As safety concerns around large language models (LLMs) grow, understanding the internal mechanisms underlying refusal behavior has become increasingly important. Recent work has studied this behavior by identifying internal features associated with refusal and manipulating them to induce compliance with harmful requests. However, existing refusal feature selection methods rely on how strongly features activate on harmful prompts, which tends to capture superficial signals rather than the causal factors underlying the refusal decision. We propose CRaFT, a circuit-guided refusal feature selection framework that ranks features by their influence on the model's refusal-compliance decision using prompts near the refusal boundary. On Gemma-3-1B-it, CRaFT improves attack success rate (ASR) from 6.7% to 48.2% and outperforms baseline methods across multiple jailbreak benchmarks. These results suggest that circuit influence is a more reliable criterion than activation magnitude for identifying features that causally mediate refusal behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)に関する安全性の懸念が高まるにつれ、拒絶行動の基礎となる内部メカニズムの理解がますます重要になっている。
近年の研究では、拒絶に関連する内部的特徴を特定し、有害な要求に対するコンプライアンスを誘導するためにそれらを操作している。
しかし、既存の拒絶特徴選択法は、有害なプロンプトを強く活性化する方法に依存しており、これは拒絶決定の根底にある因果的要因よりも表面的な信号を捉える傾向がある。
本稿では,回路誘導型拒否特徴選択フレームワークであるCRaFTを提案する。
Gemma-3-1B-itでは、CRaFTは攻撃成功率(ASR)を6.7%から48.2%に改善し、複数のジェイルブレイクベンチマークでベースライン手法を上回っている。
これらの結果から,回路の影響は,拒絶動作を因果的に媒介する特徴を特定する上で,アクティベーション・マグニチュードよりも信頼性の高い基準であることが示唆された。
関連論文リスト
- Uncertainty-Aware Jamming Mitigation with Active RIS: A Robust Stackelberg Game Approach [65.06640919319413]
本稿では,アクティブリコンフィギュアブルインテリジェントサーフェス(ARIS)を利用したジャミング緩和について検討する。
正当側と敵側の戦略的相互作用をモデル化するために,Stackelbergゲーム定式化を採用する。
まず、ロバストなアンチジャミング設計のための正当側最適化に組み込む、従者のベストレスポンスとして最適なジャミングポリシーを導出する。
論文 参考訳(メタデータ) (2026-02-20T12:02:01Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics [2.4839105527363574]
本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
論文 参考訳(メタデータ) (2025-12-18T14:43:04Z) - Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文 参考訳(メタデータ) (2025-05-29T15:33:39Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。