論文の概要: Conceptors for Semantic Steering
- arxiv url: http://arxiv.org/abs/2605.04980v1
- Date: Wed, 06 May 2026 14:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.880958
- Title: Conceptors for Semantic Steering
- Title(参考訳): セマンティックステアリングの概念
- Authors: Ilias Triantafyllopoulos, Young-Min Cho, Ren Tao, Miranda Muqing Miao, Sunny Rai, Lyle Ungar, Sharath Chandra Guntuku, Neville Ryant, João Sedoc,
- Abstract要約: アクティベーションベースのステアリングは、推論時にLCMの動作を制御する。
支配的なパラダイムは、それぞれの概念を、幾何がほとんど検討されていない単一の方向へと還元する。
バイポーラの概念の両極にまたがる活性化から推定されるソフトプロジェクション行列。
- 参考スコア(独自算出の注目度): 14.40996156810136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation-based steering provides control of LLM behavior at inference time, but the dominant paradigm reduces each concept to a single direction whose geometry is left largely unexamined. Rather than selecting a single steering direction, we use conceptors: soft projection matrices estimated from activations pooled across both poles of a bipolar concept, which preserve the concept's full multidimensional subspace. A geometric analysis shows the bipolar subspace strictly subsumes the single-vector baseline. We further show that the conceptor quota provides a parameter-free layer-selection diagnostic, predicting concept separability with Pearson correlations up to r=0.96 across three instruction-tuned models and three semantic dimensions. Beyond selection, conceptors admit a closed-form Boolean algebra (AND, OR, NOT): we evaluate conceptor compositionality on thematically related sub-concepts. Across a systematic five-axis design-space evaluation, conceptors match or outperform additive baselines at layers where concept subspaces are multi-dimensional while producing substantially fewer degenerate outputs. Conceptor steering is a geometrically principled, compositional, and practically safer alternative to single-direction steering from a limited number of contrastive pairs.
- Abstract(参考訳): アクティベーションベースのステアリングは、推論時にLLMの振る舞いを制御するが、支配的なパラダイムは、それぞれの概念を、幾何がほとんど検討されていない単一の方向へと還元する。
双極性の概念の両極にまたがる活性化から推定されるソフトプロジェクション行列は、この概念の完全な多次元部分空間を保存する。
幾何学的解析は、双極子部分空間が厳密に単ベクトル基底線を仮定していることを示している。
さらに、パラメータフリーな層選択診断を行い、3つの命令調整モデルと3つの意味次元でピアソン相関を最大で r=0.96 とする概念分離性を予測した。
選択以外にも、概念は閉形式ブール代数(AND, OR, NOT)を許容する。
体系的な5軸設計空間の評価において、概念的部分空間が多次元であり、退化出力が著しく少ない層において、概念的部分空間は付加的ベースラインにマッチするか、あるいは性能的に優れる。
概念的ステアリング(conceptor steering)は、幾何学的に原理化され、構成的であり、事実上より安全な一方向ステアリングの代替である。
関連論文リスト
- Sparse Concept Anchoring for Interpretable and Controllable Neural Representations [0.9831489366502301]
Sparse Concept Anchoringは、潜在空間を偏り、対象とする概念のサブセットを配置する手法である。
アンカー付き幾何学は、2つの実践的な介入を可能にする: 推論時に概念の潜伏成分を投影する行動ステアリングと、恒久的な除去である。
論文 参考訳(メタデータ) (2025-12-13T21:43:17Z) - A Geometric Unification of Concept Learning with Concept Cones [58.70836885177496]
解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
論文 参考訳(メタデータ) (2025-12-08T09:51:46Z) - Toward a Flexible Framework for Linear Representation Hypothesis Using Maximum Likelihood Estimation [3.515066520628763]
正規表現空間において、単位ベクトルとして二項の概念を新たに導入する。
我々の方法である Sum of Activation-base Normalized difference (SAND) は、von Mises-Fisher 分布のサンプルとしてモデル化されたアクティベーション差の利用を形式化する。
論文 参考訳(メタデータ) (2025-02-22T23:56:30Z) - Beyond Scalars: Concept-Based Alignment Analysis in Vision Transformers [10.400355814467401]
ビジョントランスフォーマー(ViT)は、完全な教師付きから自己教師型まで、さまざまな学習パラダイムを使って訓練することができる。
そこで本研究では,4種類のViTから表現する概念に基づくアライメント解析を提案する。
概念に基づく4つの異なるViTの表現のアライメント解析により、教師シップの増大と学習した表現の意味構造の低下が相関していることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-09T16:33:28Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。