論文の概要: HyperSteer: Activation Steering at Scale with Hypernetworks
- arxiv url: http://arxiv.org/abs/2506.03292v1
- Date: Tue, 03 Jun 2025 18:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.002832
- Title: HyperSteer: Activation Steering at Scale with Hypernetworks
- Title(参考訳): HyperSteer: Hypernetworksによる大規模アクティベーションステアリング
- Authors: Jiuding Sun, Sidharth Baskaran, Zhengxuan Wu, Michael Sklar, Christopher Potts, Atticus Geiger,
- Abstract要約: HyperSteerは、自然言語のステアリングプロンプトに条件付きステアリングベクトルを生成するために、エンドツーエンドでトレーニングされたハイパーネットワークベースのアーキテクチャのファミリーである。
何千ものステアリングプロンプトによるHyperSteerのスケーリングは、最先端のアクティベーションステアリング手法の性能を上回ることを示す。
- 参考スコア(独自算出の注目度): 25.6004576064897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering language models (LMs) by modifying internal activations is a popular approach for controlling text generation. Unsupervised dictionary learning methods, e.g., sparse autoencoders, can be scaled to produce many steering vectors, but lack guarantees on the individual efficacy of each vector and control over the coverage of relevant steering tasks. In contrast, supervised methods for constructing steering vectors are targeted and effective, but require more data collection and training for each additional steering vector produced. In this work, we introduce HyperSteer, a family of hypernetwork-based architectures which are trained end-to-end to generate steering vectors conditioned on the natural language steering prompts and the internals of the steered LM. In our evaluations, we show that scaling HyperSteer with thousands of steering prompts exceeds the performance of state-of-the-art activation steering methods, even on steering prompts never seen during training. Moreover, HyperSteer performs on par with steering-via-prompting.
- Abstract(参考訳): 内部アクティベーションの変更による言語モデル(LM)のステアリングは、テキスト生成を制御する一般的なアプローチである。
教師なし辞書学習法、例えばスパースオートエンコーダは、多くのステアリングベクトルを生成するためにスケールできるが、各ベクターの個々の有効性や関連するステアリングタスクのカバレッジに対する制御の保証は欠いている。
対照的に、ステアリングベクターを構築するための教師付き手法はターゲットであり、効果的であるが、各ステアリングベクターの生成毎により多くのデータ収集とトレーニングが必要である。
本稿では,自然言語のステアリングプロンプトとLMの内部に条件付きステアリングベクトルを生成するために,エンドツーエンドで訓練されたハイパーネットワークアーキテクチャのファミリであるHyperSteerを紹介する。
評価では、何千ものステアリングプロンプトによるHyperSteerのスケーリングが、トレーニング中に見たことのないステアリングプロンプトであっても、最先端のアクティベーションステアリングメソッドのパフォーマンスを上回ることを示した。
さらに、HyperSteerはステアリング・アヴィ・プロンプティングと同等に動作する。
関連論文リスト
- Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering [0.0]
本稿では,事前学習したLLMの出力を,推論時にその活性化を操作することによって制御する,アクティベーションエンジニアリングについて検討する。
本稿では,活性化ベクトルの集合を楕円体領域として表現する数学的構成法を提案する。
本実験は,複数のステアリングタスクにおいて,概念的手法が従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T10:09:37Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。