論文の概要: Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control
- arxiv url: http://arxiv.org/abs/2504.17130v2
- Date: Sat, 26 Apr 2025 20:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.193341
- Title: Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control
- Title(参考訳): センサシップのステアリング: LLM "Thought" 制御のための表現ベクトルの発見
- Authors: Hannah Cyberey, David Evans,
- Abstract要約: 我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検出し,制御する拒絶対応ベクトルの探索手法を提案する。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
- 参考スコア(独自算出の注目度): 7.737740676767729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed the way we access information. These models are often tuned to refuse to comply with requests that are considered harmful and to produce responses that better align with the preferences of those who control the models. To understand how this "censorship" works. We use representation engineering techniques to study open-weights safety-tuned models. We present a method for finding a refusal--compliance vector that detects and controls the level of censorship in model outputs. We also analyze recent reasoning LLMs, distilled from DeepSeek-R1, and uncover an additional dimension of censorship through "thought suppression". We show a similar approach can be used to find a vector that suppresses the model's reasoning process, allowing us to remove censorship by applying the negative multiples of this vector. Our code is publicly available at: https://github.com/hannahxchen/llm-censorship-steering
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報へのアクセス方法を変えました。
これらのモデルは、有害と見なされる要求に従わないように調整され、モデルを制御する人々の好みによく適合する応答を生成するように調整されることが多い。
この「検閲」がどのように機能するかを理解する。
我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検知し,制御するリファレンス・コンプライアンス・ベクトルの探索手法を提案する。
また、DeepSeek-R1から蒸留した最近のLCMを分析し、「思考抑制」を通じて検閲のさらなる次元を明らかにする。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
私たちのコードは、https://github.com/hannahxchen/llm-censorship-steeringで公開されています。
関連論文リスト
- The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
論文 参考訳(メタデータ) (2025-04-19T18:40:51Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - CensorLab: A Testbed for Censorship Experimentation [15.411134921415567]
我々は,インターネット検閲シナリオをエミュレートする汎用プラットフォームであるCensorLabを設計し,実装する。
CensorLabは、これまでまたは現在、現実世界の検閲によってデプロイされているすべての検閲メカニズムをサポートすることを目指している。
研究者や実践者が広範な実験を行えるように、使い易いプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-12-20T21:17:24Z) - Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation [29.605302471407537]
言語モデルを有用かつ無害にトレーニングするには、拒否行動の慎重な校正が必要である。
本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。
提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の軽減に有効である。
論文 参考訳(メタデータ) (2024-10-04T13:25:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Amoeba: Circumventing ML-supported Network Censorship via Adversarial
Reinforcement Learning [8.788469979827484]
近年の機械学習の進歩により,交通流に隠された統計的パターンを学習することで,様々な反検閲システムの検出が可能になった。
本稿では,検閲を回避する手段として,フロー分類器に対する現実的な攻撃戦略を定式化する。
我々は,アメーバが,MLアルゴリズムに対して平均94%の攻撃成功率を有する敵流を効果的に形成可能であることを示す。
論文 参考訳(メタデータ) (2023-10-31T14:01:24Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - LEACE: Perfect linear concept erasure in closed form [97.78661458934953]
概念消去は、埋め込みから特定の機能を削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、すべての線形分類器が可能な限り少ない埋め込みで概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Augmenting Rule-based DNS Censorship Detection at Scale with Machine
Learning [38.00013408742201]
ドメイン名システム(DNS)の検閲は、異なる国で使用される重要なメカニズムである。
本稿では,機械学習(ML)モデルが検出プロセスの合理化にどのように役立つかを検討する。
検閲されていないインスタンスのみに基づいてトレーニングされた教師なしモデルは、既存のプローブが見逃した新しいインスタンスと検閲のバリエーションを特定することができる。
論文 参考訳(メタデータ) (2023-02-03T23:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。