論文の概要: Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution
- arxiv url: http://arxiv.org/abs/2410.00153v1
- Date: Mon, 30 Sep 2024 18:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 14:40:28.495317
- Title: Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution
- Title(参考訳): 単一概念ベクトルを超える:ガウス分布を持つLLMにおける概念部分空間のモデル化
- Authors: Haiyan Zhao, Heng Zhao, Bo Shen, Ali Payani, Fan Yang, Mengnan Du,
- Abstract要約: 本稿では,特定の概念を表す部分空間を近似する手法を提案する。
我々は,GCSの有効性を,複数の大規模言語モデルにまたがる忠実度と妥当性を計測することによって実証する。
また、感情ステアリングなどの実世界の応用において、表現介入タスクを用いてその効果を示す。
- 参考スコア(独自算出の注目度): 23.594013836364628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing learned concepts in large language models (LLMs) is crucial for understanding how semantic knowledge is encoded internally. Training linear classifiers on probing tasks is a principle approach to denote the vector of a certain concept in the representation space. However, the single vector identified for a concept varies with both data and training, making it less robust and weakening its effectiveness in real-world applications. To address this challenge, we propose an approach to approximate the subspace representing a specific concept. Built on linear probing classifiers, we extend the concept vectors into Gaussian Concept Subspace (GCS). We demonstrate GCS's effectiveness through measuring its faithfulness and plausibility across multiple LLMs with different sizes and architectures. Additionally, we use representation intervention tasks to showcase its efficacy in real-world applications such as emotion steering. Experimental results indicate that GCS concept vectors have the potential to balance steering performance and maintaining the fluency in natural language generation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)における学習概念の探索は、意味的知識が内部的にどのように符号化されるかを理解する上で重要である。
探索タスクに関する線形分類器の訓練は、表現空間におけるある概念のベクトルを表す原則的アプローチである。
しかし、概念として特定される単一のベクトルは、データとトレーニングの両方によって異なり、現実のアプリケーションにおけるその効果を弱める。
この課題に対処するために,特定の概念を表す部分空間を近似する手法を提案する。
線形確率分類器上に構築され、概念ベクトルをガウス概念部分空間(GCS)に拡張する。
我々は,GCSの信頼性と妥当性を,サイズやアーキテクチャの異なる複数のLCMにまたがって測定することで,GCSの有効性を実証する。
さらに,感情ステアリングなどの実世界の応用において,表現介入タスクを用いてその効果を示す。
実験の結果,GCSの概念ベクトルは,自然言語生成タスクにおける操舵性能のバランスと流速の維持を両立させる可能性が示唆された。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Contrastive Learning and Abstract Concepts: The Case of Natural Numbers [0.0]
対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることを示す。
類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。
論文 参考訳(メタデータ) (2024-08-05T05:41:16Z) - Local Concept Embeddings for Analysis of Concept Distributions in DNN Feature Spaces [1.0923877073891446]
我々はディープニューラルネットワーク(DNN)のための新しい概念分析フレームワークを提案する。
完全なデータセット上で単一のグローバルな概念ベクトルを最適化する代わりに、個々のサンプルに対してローカルな概念埋め込み(LoCE)ベクトルを生成する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文 参考訳(メタデータ) (2023-11-24T12:22:00Z) - Identifying Linear Relational Concepts in Large Language Models [16.917379272022064]
トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。
本稿では,リレーショナル・リレーショナル・コンセプト (LRC) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T14:01:41Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。