論文の概要: Toward a Flexible Framework for Linear Representation Hypothesis Using Maximum Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2502.16385v1
- Date: Sat, 22 Feb 2025 23:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:53.819110
- Title: Toward a Flexible Framework for Linear Representation Hypothesis Using Maximum Likelihood Estimation
- Title(参考訳): 最大類似度推定を用いた線形表現仮説のフレキシブルフレームワークに向けて
- Authors: Trung Nguyen, Yan Leng,
- Abstract要約: 正規表現空間において、単位ベクトルとして二項の概念を新たに導入する。
我々の方法である Sum of Activation-base Normalized difference (SAND) は、von Mises-Fisher 分布のサンプルとしてモデル化されたアクティベーション差の利用を形式化する。
- 参考スコア(独自算出の注目度): 3.515066520628763
- License:
- Abstract: Linear representation hypothesis posits that high-level concepts are encoded as linear directions in the representation spaces of LLMs. Park et al. (2024) formalize this notion by unifying multiple interpretations of linear representation, such as 1-dimensional subspace representation and interventions, using a causal inner product. However, their framework relies on single-token counterfactual pairs and cannot handle ambiguous contrasting pairs, limiting its applicability to complex or context-dependent concepts. We introduce a new notion of binary concepts as unit vectors in a canonical representation space, and utilize LLMs' (neural) activation differences along with maximum likelihood estimation (MLE) to compute concept directions (i.e., steering vectors). Our method, Sum of Activation-base Normalized Difference (SAND), formalizes the use of activation differences modeled as samples from a von Mises-Fisher (vMF) distribution, providing a principled approach to derive concept directions. We extend the applicability of Park et al. (2024) by eliminating the dependency on unembedding representations and single-token pairs. Through experiments with LLaMA models across diverse concepts and benchmarks, we demonstrate that our lightweight approach offers greater flexibility, superior performance in activation engineering tasks like monitoring and manipulation.
- Abstract(参考訳): 線形表現仮説は、高次概念は LLM の表現空間において線型方向として符号化されていることを仮定する。
Park et al (2024) はこの概念を1次元部分空間表現や介入といった線形表現の複数の解釈を因果内積を用いて統一することによって定式化する。
しかし、それらのフレームワークは単一目的の対物対に依存しており、曖昧なコントラスト対を扱えないため、複雑な概念や文脈に依存した概念の適用性に制限される。
標準表現空間における二元ベクトルとしての新しい概念を導入し、LLMの活性化差と最大推定値(MLE)を用いて、概念方向(ステアリングベクトル)を計算する。
我々の方法である Sum of Activation-base Normalized difference (SAND) は、von Mises-Fisher (vMF) 分布のサンプルとしてモデル化されたアクティベーション差分の使用を形式化し、概念の方向性を導出するための原則的なアプローチを提供する。
また,Park et al (2024) の適用性も拡張し,非埋め込み表現やシングルトークンペアへの依存を排除した。
LLaMAモデルによる様々な概念やベンチマークの実験を通じて、当社の軽量アプローチが、監視や操作といったアクティベーションエンジニアリングタスクにおいて、より柔軟性と優れたパフォーマンスを提供することを示した。
関連論文リスト
- Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts [24.990218468155383]
この研究は、異なる大言語モデル(LLM)における概念表現間の複雑な関係を探求する。
我々はこれらの表現をブリッジする線形変換法を導入し、プラトンの洞窟のアレゴリーに平行な興味をそそる。
より小さなLSMから抽出されたSVは、より大きなLSMの挙動を効果的に制御できる。
論文 参考訳(メタデータ) (2025-01-02T11:56:59Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution [23.594013836364628]
本稿では,特定の概念を表す部分空間を近似する手法を提案する。
我々は,GCSの有効性を,複数の大規模言語モデルにまたがる忠実度と妥当性を計測することによって実証する。
また、感情ステアリングなどの実世界の応用において、表現介入タスクを用いてその効果を示す。
論文 参考訳(メタデータ) (2024-09-30T18:52:53Z) - Identifying Linear Relational Concepts in Large Language Models [16.917379272022064]
トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。
本稿では,リレーショナル・リレーショナル・コンセプト (LRC) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T14:01:41Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。