論文の概要: Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts
- arxiv url: http://arxiv.org/abs/2502.12179v1
- Date: Fri, 14 Feb 2025 08:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.581206
- Title: Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts
- Title(参考訳): マルチコンセプトシフトのスパースオートエンコーディングによる特定可能なステアリング
- Authors: Shruti Joshi, Andrea Dittadi, Sébastien Lachapelle, Dhanya Sridhar,
- Abstract要約: ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。
伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
- 参考スコア(独自算出の注目度): 11.81523319216474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering methods manipulate the representations of large language models (LLMs) to induce responses that have desired properties, e.g., truthfulness, offering a promising approach for LLM alignment without the need for fine-tuning. Traditionally, steering has relied on supervision, such as from contrastive pairs of prompts that vary in a single target concept, which is costly to obtain and limits the speed of steering research. An appealing alternative is to use unsupervised approaches such as sparse autoencoders (SAEs) to map LLM embeddings to sparse representations that capture human-interpretable concepts. However, without further assumptions, SAEs may not be identifiable: they could learn latent dimensions that entangle multiple concepts, leading to unintentional steering of unrelated properties. We introduce Sparse Shift Autoencoders (SSAEs) that instead map the differences between embeddings to sparse representations. Crucially, we show that SSAEs are identifiable from paired observations that vary in \textit{multiple unknown concepts}, leading to accurate steering of single concepts without the need for supervision. We empirically demonstrate accurate steering across semi-synthetic and real-world language datasets using Llama-3.1 embeddings.
- Abstract(参考訳): ステアリング法は大規模言語モデル(LLM)の表現を操作して,所望の特性,例えば真理性を持った応答を誘導し,微調整を必要とせずにLCMアライメントに有望なアプローチを提供する。
伝統的に、ステアリングは、単一の目標概念において異なる対照的なプロンプトの対から、管理に依存しており、ステアリング研究の速度の獲得と制限に費用がかかる。
魅力的な代替手段は、スパースオートエンコーダ(SAE)のような教師なしのアプローチを使用して、LLM埋め込みを人間の解釈可能な概念を捉えるスパース表現にマッピングすることである。
しかし、さらなる仮定なしでは、SAEは複数の概念を絡める潜在次元を学習することができ、無関係な性質の意図しない操りに繋がる。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
重要な点として, SSAEsは, <textit{multiple unknown concept} で異なる2つの観測結果から同定可能であり, 単一の概念の正確なステアリングを, 監督を必要とせずに実現することを示す。
Llama-3.1埋め込みを用いた半合成および実世界の言語データセット間の正確なステアリングを実証的に実証した。
関連論文リスト
- COSMIC: Generalized Refusal Direction Identification in LLM Activations [43.30637889861949]
本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
論文 参考訳(メタデータ) (2025-05-30T04:54:18Z) - SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models [48.40096116617163]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)技術を用いて推論と数学的問題を解く能力を示す。
この研究はDeepSeek-R1の深い思考パラダイムにインスパイアされ、外部データセットを使わずにLCMの推論能力を高めるためにステアリング技術を利用している。
論文 参考訳(メタデータ) (2025-05-21T15:17:59Z) - Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering [41.588589098740755]
線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
論文 参考訳(メタデータ) (2025-05-21T02:45:11Z) - Ambiguity Resolution in Text-to-Structured Data Mapping [10.285528620331696]
自然言語における曖昧さは、構造化されたデータマッピングに対する正確なテキストを実現するための重要な障害である。
本稿では,概念不足の予測を通じて曖昧なエージェントツールを呼び出し,大規模言語モデル(LLM)の性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:39:30Z) - Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。