論文の概要: When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2601.03047v1
- Date: Tue, 06 Jan 2026 14:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.973428
- Title: When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability
- Title(参考訳): コーヒーがコーヒーに作用する時--機械的解釈性のための特徴抽出とステアリングの分析
- Authors: Raphael Ronge, Markus Maier, Frederick Eberhardt,
- Abstract要約: 機械的解釈可能性に関する人類学の最近の研究は、大規模言語モデルを理解し制御することを主張している。
我々は、Llama 3.1のオープンソースSAEで主要な結果を複製することで、これらの主張の最初のストレステストを行う。
機能ステアリングは, 層選択, ステアリングサイズ, コンテキストに敏感で, かなり脆弱であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work by Anthropic on Mechanistic interpretability claims to understand and control Large Language Models by extracting human-interpretable features from their neural activation patterns using sparse autoencoders (SAEs). If successful, this approach offers one of the most promising routes for human oversight in AI safety. We conduct an initial stress-test of these claims by replicating their main results with open-source SAEs for Llama 3.1. While we successfully reproduce basic feature extraction and steering capabilities, our investigation suggests that major caution is warranted regarding the generalizability of these claims. We find that feature steering exhibits substantial fragility, with sensitivity to layer selection, steering magnitude, and context. We observe non-standard activation behavior and demonstrate the difficulty to distinguish thematically similar features from one another. While SAE-based interpretability produces compelling demonstrations in selected cases, current methods often fall short of the systematic reliability required for safety-critical applications. This suggests a necessary shift in focus from prioritizing interpretability of internal representations toward reliable prediction and control of model output. Our work contributes to a more nuanced understanding of what mechanistic interpretability has achieved and highlights fundamental challenges for AI safety that remain unresolved.
- Abstract(参考訳): 機械的解釈可能性に関するArthhropicの最近の研究は、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な特徴を神経活性化パターンから抽出することで、大規模言語モデルを理解し制御すると主張している。
もし成功すれば、このアプローチはAIの安全性において人間の監視にとって最も有望な道の1つとなる。
我々は、Llama 3.1のオープンソースSAEでそれらの主要な結果を複製することで、これらの主張の最初のストレステストを行う。
基本的特徴抽出とステアリング能力の再現は成功したが,本研究はこれらの主張の一般化性について大きな注意が必要であることを示唆している。
機能ステアリングは, 層選択, ステアリングサイズ, コンテキストに敏感で, かなり脆弱であることがわかった。
非標準的なアクティベーション動作を観察し、数学的に類似した特徴を互いに区別することの難しさを実証する。
SAEベースの解釈可能性(英語版)は、選択されたケースにおいて魅力的なデモンストレーションをもたらすが、現在の手法は、安全クリティカルなアプリケーションに必要な体系的な信頼性に欠けることが多い。
これは、内部表現の解釈可能性の優先順位付けから信頼性のある予測とモデル出力の制御へのフォーカスのシフトを示唆している。
私たちの研究は、機械的解釈可能性が達成したことのより微妙な理解に寄与し、未解決のままのAI安全性に対する根本的な課題を強調します。
関連論文リスト
- Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Approaches to Analysis and Design of AI-Based Autonomous Vehicles [12.672967565682724]
AIベースのフィードバックを通じてループを閉じると、自律運転の信頼性に重大なリスクが生じる可能性がある。
本稿では,AIに基づくAVクラスのためのモデリング,解析,合成のためのツールを開発することを目的とする。
論文 参考訳(メタデータ) (2025-09-15T17:32:29Z) - Interpretability as Alignment: Making Internal Understanding a Design Principle [3.6704226968275253]
解釈可能性(Interpretability)は、アウトプットを駆動する計算を明らかにすることによって、内部透明性への道筋を提供する。
我々は、解釈可能性、特に機械的アプローチは、補助的な診断ツールではなく、アライメントのための設計原則として扱うべきであると論じている。
論文 参考訳(メタデータ) (2025-09-10T13:45:59Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Measuring and Guiding Monosemanticity [25.40936584258291]
現在の手法では、特徴表現を確実にローカライズし操作する上で、課題に直面している。
本稿では,学習中にラベル付き概念に潜在表現を条件付ける手法であるガイドスパースオートエンコーダ(G-SAE)を提案する。
G-SAEは単Semanticityを向上するだけでなく、より効果的できめ細かいステアリングを可能にする。
論文 参考訳(メタデータ) (2025-06-24T07:18:20Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。