論文の概要: Predictive Concept Decoders: Training Scalable End-to-End Interpretability Assistants
- arxiv url: http://arxiv.org/abs/2512.15712v1
- Date: Wed, 17 Dec 2025 18:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.12129
- Title: Predictive Concept Decoders: Training Scalable End-to-End Interpretability Assistants
- Title(参考訳): 予測概念デコーダ - スケーラブルなエンドツーエンド解釈アシスタントのトレーニング
- Authors: Vincent Huang, Dami Choi, Daniel D. Johnson, Sarah Schwettmann, Jacob Steinhardt,
- Abstract要約: ニューラルネットワークの解釈可能性アシスタントのためのエンドツーエンドの学習目標を提案する。
エンコーダは、アクティベーションをスパースな概念リストに圧縮し、デコーダは、このリストを読み、自然言語の質問に答える。
我々は、このアシスタントを大規模な構造化されていないデータで事前訓練し、質問に答えるために微調整する方法を示します。
結果として得られたアーキテクチャは、予測概念デコーダと呼ばれ、好ましいスケーリング特性を享受しています。
- 参考スコア(独自算出の注目度): 36.80408068959425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting the internal activations of neural networks can produce more faithful explanations of their behavior, but is difficult due to the complex structure of activation space. Existing approaches to scalable interpretability use hand-designed agents that make and test hypotheses about how internal activations relate to external behavior. We propose to instead turn this task into an end-to-end training objective, by training interpretability assistants to accurately predict model behavior from activations through a communication bottleneck. Specifically, an encoder compresses activations to a sparse list of concepts, and a decoder reads this list and answers a natural language question about the model. We show how to pretrain this assistant on large unstructured data, then finetune it to answer questions. The resulting architecture, which we call a Predictive Concept Decoder, enjoys favorable scaling properties: the auto-interp score of the bottleneck concepts improves with data, as does the performance on downstream applications. Specifically, PCDs can detect jailbreaks, secret hints, and implanted latent concepts, and are able to accurately surface latent user attributes.
- Abstract(参考訳): ニューラルネットワークの内部アクティベーションを解釈することは、それらの振る舞いをより忠実に説明することができるが、アクティベーション空間の複雑な構造のために困難である。
既存のスケーラブルな解釈可能性へのアプローチでは、内部のアクティベーションが外部の振る舞いにどのように関係するかを仮説を立て、テストする手作りのエージェントを使用している。
そこで我々は,この課題をエンド・ツー・エンドの訓練目標に転換し,コミュニケーションボトルネックを通じてアクティベーションからモデル動作を正確に予測するために,解釈可能性アシスタントを訓練することを提案する。
具体的には、エンコーダは、アクティベーションをスパースな概念リストに圧縮し、デコーダは、このリストを読み、モデルに関する自然言語の質問に答える。
我々は、このアシスタントを大規模な構造化されていないデータで事前訓練し、質問に答えるために微調整する方法を示します。
ボトルネックの概念のオートインタップスコアは、ダウンストリームアプリケーションのパフォーマンスと同様に、データによって改善されます。
具体的には、PCDはジェイルブレイク、シークレットヒント、埋め込みされた潜伏概念を検出し、潜伏したユーザー属性を正確に表面化することができる。
関連論文リスト
- Provenance Networks: End-to-End Exemplar-Based Explainability [0.0]
私たちは、エンドツーエンドのトレーニングデータ駆動型説明可能性を提供するように設計された、新しいニューラルネットワークのクラスである、プロフェランスネットワークを紹介します。
確率ネットワークは、モデルの通常の操作の一部として、各予測を支援トレーニングの例に直接リンクすることを学ぶ。
これは、モデル不透明さ、幻覚、データコントリビュータへのクレジットの割り当てなど、現代のディープラーニングにおける重要な課題に対処する。
論文 参考訳(メタデータ) (2025-10-03T01:48:38Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [28.234859617081295]
RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - Intrinsic User-Centric Interpretability through Global Mixture of Experts [31.738009841932374]
InterpretCCは、人間の理解の容易さと忠実さの説明を最適化する、本質的に解釈可能なニューラルネットワークのファミリーである。
本報告では,InterpretCCの説明は,他の本質的な解釈可能なアプローチよりも,行動性や有用性が高いことを示す。
論文 参考訳(メタデータ) (2024-02-05T11:55:50Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Deep Parametric Continuous Convolutional Neural Networks [92.87547731907176]
Parametric Continuous Convolutionは、非グリッド構造化データ上で動作する、新たな学習可能な演算子である。
室内および屋外シーンの点雲セグメンテーションにおける最先端技術よりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2021-01-17T18:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。