論文の概要: A Unifying Framework for Unsupervised Concept Extraction
- arxiv url: http://arxiv.org/abs/2604.24936v1
- Date: Mon, 27 Apr 2026 19:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.570746
- Title: A Unifying Framework for Unsupervised Concept Extraction
- Title(参考訳): 教師なし概念抽出のための統一フレームワーク
- Authors: Chandler Squires, Pradeep Ravikumar,
- Abstract要約: 本稿では,教師なし概念抽出のための統一的理論的枠組みを提案する。
本稿では、識別可能性を保証するための一般的なメタ理論を提案する。
- 参考スコア(独自算出の注目度): 20.620881375972946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Techniques for concept extraction, such as sparse autoencoders and transcoders, aim to extract high-level symbolic concepts from low-level nonsymbolic representations. When these extracted concepts are used for downstream tasks such as model steering and unlearning, it is essential to understand their guarantees, or lack thereof. In this work, we present a unified theoretical framework for unsupervised concept extraction, in which we frame the task of concept extraction as identifying a generative model. We present a general meta-theorem for identifiability, which reduces the problem of establishing identifiability guarantees to the problem of characterizing the intersection of two sets. As we demonstrate on a range of widely-used approaches, this meta-theorem substantially simplifies the task of proving such guarantees, thus paving the way for the development of new, principled approaches for concept extraction.
- Abstract(参考訳): スパースオートエンコーダやトランスコーダのような概念抽出技術は、低レベルの非記号表現から高レベルのシンボル概念を抽出することを目的としている。
これらの抽出された概念がモデルステアリングやアンラーニングといった下流タスクに使用される場合、それらの保証や欠如を理解することが不可欠である。
本研究では,非教師付き概念抽出のための統一的理論フレームワークを提案する。
本稿では,2つの集合の交叉を特徴付ける問題に対して,識別可能性を保証するための一般的なメタ理論を提案する。
このメタ理論は、広く使われている様々なアプローチで示されるように、そのような保証を証明するタスクを実質的に単純化し、概念抽出のための新しい原則化されたアプローチを開発するための道を開く。
関連論文リスト
- Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition [81.2779530670268]
VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-03-09T03:11:11Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。