論文の概要: Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
- arxiv url: http://arxiv.org/abs/2512.13655v1
- Date: Mon, 15 Dec 2025 18:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.813136
- Title: Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
- Title(参考訳): LLMの消音法の比較分析:クロスアーキテクチャーによる評価
- Authors: Richard J. Young,
- Abstract要約: 本研究は16種類の教科モデルを対象とした4つの音読ツールについて検討した。
シングルパス法は、ベンチマークしたサブセットで優れた性能を保った。
主な発見は、数学的推論能力は、消音介入に対して最も敏感であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.
- Abstract(参考訳): 大規模言語モデルにおける安全アライメント機構は、学習された拒絶行動を通じて有害なクエリに対する応答を防ぐが、これらの機構は認知モデル、敵検定、セキュリティ分析などの正当な研究応用を妨げる。
アブリーブ化技術は、方向直交化による拒絶表現の外科的除去を可能にするが、使用可能な実装の相対的有効性は、まだ不明である。
本研究では,16の命令調整モデル (7B-14B パラメータ) にまたがる4つの発音ツール (Heretic, DECCP, ErisForge, FailSpy) を評価する。
シングルパス法は、ErisForge -0.28 pp; DECCP -0.13 ppの3モデルでGSM8Kの精度を向上し、ベイジアン最適化のアブリーブレーションは、モデル依存の能力への影響を伴う可変分散シフト(KL発散:0.043-1.646)を生み出した。
これらの結果から,様々なモデルアーキテクチャにまたがる消音ツール配置のエビデンスに基づく選択基準が得られた。
GSM8Kはツールの選択やモデルアーキテクチャによって +1.51 pp から -18.81 pp (-26.5%) まで変化している。
関連論文リスト
- Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - Beyond Mimicry: Preference Coherence in LLMs [0.19116784879310025]
大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
論文 参考訳(メタデータ) (2025-11-17T17:41:48Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling [115.74855199827596]
MiroThinkerは、ツール拡張推論と情報検索機能を向上させるために設計されたオープンソースの研究エージェントである。
モデルサイズやコンテキスト長のみをスケールアップする以前のエージェントとは異なり、MiroThinker氏はモデルレベルでのインタラクションスケーリングについて検討している。
論文 参考訳(メタデータ) (2025-11-14T18:52:07Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Causal Intervention Framework for Variational Auto Encoder Mechanistic Interpretability [0.0]
本稿では,変分オートエンコーダ(VAE)の機械的解釈性に対する包括的因果介入フレームワークを提案する。
VAEの「回路モチーフ」を識別・解析する手法を開発し、ネットワーク層を通して意味的要因がどのようにコード化され、処理され、そして切り離されているかを調べる。
その結果、我々の介入は機能回路の分離に成功し、計算グラフを意味因子の因果グラフにマッピングし、多意味単位と単意味単位を区別できることがわかった。
論文 参考訳(メタデータ) (2025-05-06T13:40:59Z) - SASWISE-UE: Segmentation and Synthesis with Interpretable Scalable Ensembles for Uncertainty Estimation [6.082812294410541]
本稿では,医療深層学習モデルの解釈性向上を目的とした,効率的なサブモデルアンサンブルフレームワークを提案する。
不確実性マップを生成することにより、エンドユーザーがモデル出力の信頼性を評価することができる。
論文 参考訳(メタデータ) (2024-11-08T04:37:55Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。