論文の概要: Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails
- arxiv url: http://arxiv.org/abs/2603.18280v1
- Date: Wed, 18 Mar 2026 20:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.845459
- Title: Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails
- Title(参考訳): 検出は安上がり、ルーティングは学習される:なぜ拒否に基づくアライメント評価が失敗するのか
- Authors: Gregory N. Frank,
- Abstract要約: 自然実験として、中国語・オリジン語モデルにおける政治的検閲について研究する。
5つの実験室の9つのオープンウェイトモデルに対して、プローブ、外科的改善、行動テストを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current alignment evaluation mostly measures whether models encode dangerous concepts and whether they refuse harmful requests. Both miss the layer where alignment often operates: routing from concept detection to behavioral policy. We study political censorship in Chinese-origin language models as a natural experiment, using probes, surgical ablations, and behavioral tests across nine open-weight models from five labs. Three findings follow. First, probe accuracy alone is non-diagnostic: political probes, null controls, and permutation baselines can all reach 100%, so held-out category generalization is the informative test. Second, surgical ablation reveals lab-specific routing. Removing the political-sensitivity direction eliminates censorship and restores accurate factual output in most models tested, while one model confabulates because its architecture entangles factual knowledge with the censorship mechanism. Cross-model transfer fails, indicating that routing geometry is model- and lab-specific. Third, refusal is no longer the dominant censorship mechanism. Within one model family, hard refusal falls to zero while narrative steering rises to the maximum, making censorship invisible to refusal-only benchmarks. These results support a three-stage descriptive framework: detect, route, generate. Models often retain the relevant knowledge; alignment changes how that knowledge is expressed. Evaluations that audit only detection or refusal therefore miss the routing mechanism that most directly determines behavior.
- Abstract(参考訳): 現在のアライメント評価は、モデルが危険な概念を符号化するかどうか、有害な要求を拒否するかどうかを主に測定している。
両者とも、アライメントが頻繁に機能するレイヤを見逃している。
我々は,5つの実験室の9つのオープンウェイトモデルに対して,プローブ,外科的治療,行動検査を用いて,中国語-オリジン語モデルの政治的検閲を自然実験として研究した。
以下の3つの発見がある。
政治的プローブ、ヌルコントロール、置換ベースラインは全て100%に達するので、保留圏の一般化は情報的テストである。
第二に、外科的アブレーションは実験室固有のルーティングを明らかにする。
政治的感受性の方向を除去することは検閲を排除し、テストされたほとんどのモデルにおいて正確な事実の出力を復元する。
クロスモデル転送は失敗し、ルーティング幾何学がモデル固有かつラボ固有であることを示す。
第三に、拒絶はもはや支配的な検閲機構ではない。
1つのモデルファミリー内では、ハードリフレルはゼロに落ち、物語のステアリングは最大に上昇し、リフレルのみのベンチマークでは検閲は見えなくなる。
これらの結果は、検出、ルーティング、生成という3段階の記述フレームワークをサポートする。
モデルは、しばしば関連する知識を保持し、その知識の表現方法を変える。
したがって、検出または拒否のみを監査する評価は、最も直接的に行動を決定するルーティングメカニズムを見逃すことになる。
関連論文リスト
- To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Discovering Forbidden Topics in Language Models [26.2418673687851]
トークンプリフィルを用いて禁止トピックを見つけるための拒絶探索手法を開発した。
我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-23T03:49:06Z) - Augmenting Rule-based DNS Censorship Detection at Scale with Machine
Learning [38.00013408742201]
ドメイン名システム(DNS)の検閲は、異なる国で使用される重要なメカニズムである。
本稿では,機械学習(ML)モデルが検出プロセスの合理化にどのように役立つかを検討する。
検閲されていないインスタンスのみに基づいてトレーニングされた教師なしモデルは、既存のプローブが見逃した新しいインスタンスと検閲のバリエーションを特定することができる。
論文 参考訳(メタデータ) (2023-02-03T23:36:30Z) - Towards Stochastic Fault-tolerant Control using Precision Learning and
Active Inference [3.6536977425574664]
本研究では,アクティブ推論に基づくロボットマニピュレータの耐故障性制御手法を提案する。
既存のスキームの大多数では、測定データに基づいて、センサが正常(機能)か故障かを二分判定する。
本稿では,障害回復を誘発する事前しきい値の定義を必要としない,能動推論と高精度学習に基づく耐故障性スキームを提案する。
論文 参考訳(メタデータ) (2021-09-13T11:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。