Fugu-MT 論文翻訳(概要): Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts

論文の概要: Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts

arxiv url: http://arxiv.org/abs/2502.12179v1
Date: Fri, 14 Feb 2025 08:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.581206
Title: Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts
Title（参考訳）: マルチコンセプトシフトのスパースオートエンコーディングによる特定可能なステアリング
Authors: Shruti Joshi, Andrea Dittadi, Sébastien Lachapelle, Dhanya Sridhar,
Abstract要約: ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。 Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
参考スコア（独自算出の注目度）: 11.81523319216474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Steering methods manipulate the representations of large language models (LLMs) to induce responses that have desired properties, e.g., truthfulness, offering a promising approach for LLM alignment without the need for fine-tuning. Traditionally, steering has relied on supervision, such as from contrastive pairs of prompts that vary in a single target concept, which is costly to obtain and limits the speed of steering research. An appealing alternative is to use unsupervised approaches such as sparse autoencoders (SAEs) to map LLM embeddings to sparse representations that capture human-interpretable concepts. However, without further assumptions, SAEs may not be identifiable: they could learn latent dimensions that entangle multiple concepts, leading to unintentional steering of unrelated properties. We introduce Sparse Shift Autoencoders (SSAEs) that instead map the differences between embeddings to sparse representations. Crucially, we show that SSAEs are identifiable from paired observations that vary in \textit{multiple unknown concepts}, leading to accurate steering of single concepts without the need for supervision. We empirically demonstrate accurate steering across semi-synthetic and real-world language datasets using Llama-3.1 embeddings.
Abstract（参考訳）: ステアリング法は大規模言語モデル(LLM)の表現を操作して,所望の特性,例えば真理性を持った応答を誘導し,微調整を必要とせずにLCMアライメントに有望なアプローチを提供する。伝統的に、ステアリングは、単一の目標概念において異なる対照的なプロンプトの対から、管理に依存しており、ステアリング研究の速度の獲得と制限に費用がかかる。魅力的な代替手段は、スパースオートエンコーダ(SAE)のような教師なしのアプローチを使用して、LLM埋め込みを人間の解釈可能な概念を捉えるスパース表現にマッピングすることである。しかし、さらなる仮定なしでは、SAEは複数の概念を絡める潜在次元を学習することができ、無関係な性質の意図しない操りに繋がる。 Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。重要な点として, SSAEsは, <textit{multiple unknown concept} で異なる2つの観測結果から同定可能であり, 単一の概念の正確なステアリングを, 監督を必要とせずに実現することを示す。 Llama-3.1埋め込みを用いた半合成および実世界の言語データセット間の正確なステアリングを実証的に実証した。

関連論文リスト

Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文参考訳（メタデータ） (2025-02-28T20:43:45Z)
The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。 LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文参考訳（メタデータ） (2025-02-24T18:52:59Z)
AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文参考訳（メタデータ） (2025-01-28T18:51:24Z)
LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文参考訳（メタデータ） (2025-01-19T13:06:51Z)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳（メタデータ） (2024-12-11T18:59:33Z)
Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文参考訳（メタデータ） (2024-11-09T08:22:31Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文参考訳（メタデータ） (2024-05-31T08:06:05Z)
Measuring the Interpretability of Unsupervised Representations via Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文参考訳（メタデータ） (2022-09-07T16:18:50Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。