論文の概要: SuperActivators: Only the Tail of the Distribution Contains Reliable Concept Signals
- arxiv url: http://arxiv.org/abs/2512.05038v1
- Date: Thu, 04 Dec 2025 17:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.30744
- Title: SuperActivators: Only the Tail of the Distribution Contains Reliable Concept Signals
- Title(参考訳): スーパーアクティベーター:信頼性の高い概念信号を含む配電体のテールのみ
- Authors: Cassandra Goldberg, Chaehyeon Kim, Adam Stein, Eric Wong,
- Abstract要約: SuperActivatorトークンは、標準ベクトルベースを一貫して上回り、概念検出アプローチを促進する。
SuperActivatorトークンを利用して概念の属性を改善する。
- 参考スコア(独自算出の注目度): 23.71028090901254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept vectors aim to enhance model interpretability by linking internal representations with human-understandable semantics, but their utility is often limited by noisy and inconsistent activations. In this work, we uncover a clear pattern within the noise, which we term the SuperActivator Mechanism: while in-concept and out-of-concept activations overlap considerably, the token activations in the extreme high tail of the in-concept distribution provide a reliable signal of concept presence. We demonstrate the generality of this mechanism by showing that SuperActivator tokens consistently outperform standard vector-based and prompting concept detection approaches, achieving up to a 14% higher F1 score across image and text modalities, model architectures, model layers, and concept extraction techniques. Finally, we leverage SuperActivator tokens to improve feature attributions for concepts.
- Abstract(参考訳): 概念ベクトルは、内部表現と人間の理解不能な意味論を結びつけることによってモデル解釈可能性を高めることを目的としているが、その実用性はノイズや一貫性のないアクティベーションによって制限されることが多い。
概念内および概念外アクティベーションが著しく重なる一方で、概念内分布の極端に高いテールにおけるトークンアクティベーションは、概念存在の確実なシグナルを与える。
本稿では,スーパーアクティベータトークンが標準ベクトルベースを一貫して上回り,概念検出アプローチを推進し,画像やテキストのモダリティ,モデルアーキテクチャ,モデルレイヤ,概念抽出技術にまたがるF1スコアを最大14%向上させることで,このメカニズムの汎用性を実証する。
最後に、SuperActivatorトークンを利用して概念の属性を改善する。
関連論文リスト
- FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model [5.700536552863068]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間表現として予測することにより、解釈可能性を高める。
本稿では,視覚的特徴を意味論的に意味のある構成要素に自動的に分類する軽量なDECBMを提案する。
3つの多様なデータセットの実験により、LCDBMはより高い概念とクラス精度を達成し、解釈可能性と分類性能の両方において従来のCBMよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2025-10-17T15:59:30Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Concept activation vectors: a unifying view and adversarial attacks [18.52226950411775]
コンセプトアクティベーションベクトル(Concept Activation Vectors、CAV)は、説明可能なAIのツールである。
それらは、概念クラスまたは非概念の例に属する入力の隠れ層活性化から計算される。
確率論的観点を採用すると、(非)概念入力の分布はCAV上の分布を誘導し、潜在空間におけるランダムなベクトルとなる。
論文 参考訳(メタデータ) (2025-09-26T09:22:31Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Towards Robust and Reliable Concept Representations: Reliability-Enhanced Concept Embedding Model [22.865870813626316]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を意思決定の中間体として予測することにより、解釈可能性を高めることを目的としている。
概念に関係のない特徴に対する感受性と、異なるサンプルの同じ概念に対する意味的一貫性の欠如である。
本稿では,Reliability-Enhanced Concept Embedding Model (RECEM) を提案する。Reliability-Enhanced Concept Embedding Model (RECEM) は2つの戦略を導入する。
論文 参考訳(メタデータ) (2025-02-03T09:29:39Z) - Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。