論文の概要: COSMIC: Generalized Refusal Direction Identification in LLM Activations
- arxiv url: http://arxiv.org/abs/2506.00085v1
- Date: Fri, 30 May 2025 04:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.277741
- Title: COSMIC: Generalized Refusal Direction Identification in LLM Activations
- Title(参考訳): COSMIC: LLM活性化における一般化された拒絶方向同定
- Authors: Vincent Siu, Nicholas Crispino, Zihao Yu, Sam Pan, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang,
- Abstract要約: 本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
- 参考スコア(独自算出の注目度): 43.30637889861949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) encode behaviors such as refusal within their activation space, yet identifying these behaviors remains a significant challenge. Existing methods often rely on predefined refusal templates detectable in output tokens or require manual analysis. We introduce \textbf{COSMIC} (Cosine Similarity Metrics for Inversion of Concepts), an automated framework for direction selection that identifies viable steering directions and target layers using cosine similarity - entirely independent of model outputs. COSMIC achieves steering performance comparable to prior methods without requiring assumptions about a model's refusal behavior, such as the presence of specific refusal tokens. It reliably identifies refusal directions in adversarial settings and weakly aligned models, and is capable of steering such models toward safer behavior with minimal increase in false refusals, demonstrating robustness across a wide range of alignment conditions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アクティベーション空間内での拒絶などの振る舞いを符号化するが、これらの振る舞いを特定することは大きな課題である。
既存のメソッドは、出力トークンで検出可能な事前定義された拒絶テンプレートや手動分析を必要とする場合が多い。
本稿では,コサインの類似性(モデル出力とは全く独立)を用いて,現実的な操舵方向と対象層を識別する,方向選択のための自動フレームワークである‘textbf{COSMIC}(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
COSMICは、特定の拒絶トークンの存在など、モデルの拒絶動作に関する仮定を必要とせずに、以前のメソッドに匹敵するステアリング性能を達成する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽りの拒絶が最小限に抑えられ、幅広いアライメント条件で堅牢性を示すことができる。
関連論文リスト
- Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts [11.81523319216474]
ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。
伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
論文 参考訳(メタデータ) (2025-02-14T08:49:41Z) - Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文 参考訳(メタデータ) (2024-11-13T20:12:55Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - LUCID-GAN: Conditional Generative Models to Locate Unfairness [1.5257247496416746]
本稿では,勾配に基づく逆設計の代わりに条件付き生成モデルを用いて標準入力を生成するLUCID-GANを提案する。
UCIアダルトデータセットとCompASデータセットのLUCID-GANを実験的に評価し、トレーニングデータへのアクセスを必要とせず、ブラックボックスモデルにおける非倫理的バイアスを検出することができることを示す。
論文 参考訳(メタデータ) (2023-07-28T10:37:49Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Calibrating Over-Parametrized Simulation Models: A Framework via
Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。
本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文 参考訳(メタデータ) (2021-05-27T00:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。