論文の概要: Improved Representation Steering for Language Models
- arxiv url: http://arxiv.org/abs/2505.20809v1
- Date: Tue, 27 May 2025 07:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.46617
- Title: Improved Representation Steering for Language Models
- Title(参考訳): 言語モデルのための表現ステアリングの改良
- Authors: Zhengxuan Wu, Qinan Yu, Aryaman Arora, Christopher D. Manning, Christopher Potts,
- Abstract要約: 我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
- 参考スコア(独自算出の注目度): 50.86411958644953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering methods for language models (LMs) seek to provide fine-grained and interpretable control over model generations by variously changing model inputs, weights, or representations to adjust behavior. Recent work has shown that adjusting weights or representations is often less effective than steering by prompting, for instance when wanting to introduce or suppress a particular concept. We demonstrate how to improve representation steering via our new Reference-free Preference Steering (RePS), a bidirectional preference-optimization objective that jointly does concept steering and suppression. We train three parameterizations of RePS and evaluate them on AxBench, a large-scale model steering benchmark. On Gemma models with sizes ranging from 2B to 27B, RePS outperforms all existing steering methods trained with a language modeling objective and substantially narrows the gap with prompting -- while promoting interpretability and minimizing parameter count. In suppression, RePS matches the language-modeling objective on Gemma-2 and outperforms it on the larger Gemma-3 variants while remaining resilient to prompt-based jailbreaking attacks that defeat prompting. Overall, our results suggest that RePS provides an interpretable and robust alternative to prompting for both steering and suppression.
- Abstract(参考訳): 言語モデル(LM)のステアリング手法は、モデル入力、重み、あるいは表現を様々に変更して振る舞いを調整することによって、モデル生成をきめ細かな、解釈可能な制御を提供することを目指している。
最近の研究は、例えば特定の概念を導入または抑制したい場合、ウェイトや表現の調整は、操舵よりも効果が低いことを示している。
本稿では,Reference-free Preference Steering (RePS) による表現ステアリングの改善について紹介する。
大規模なモデルステアリングベンチマークであるAxBenchでRePSのパラメータ化を3つのパラメータ化して評価する。
2Bから27BまでのサイズのGemmaモデルでは、RePSは言語モデリングの目的によってトレーニングされた既存のステアリングメソッドをすべて上回り、解釈可能性を促進し、パラメータ数を最小化しながら、プロンプトによってギャップを大幅に狭めている。
抑圧においては、RePSはGemma-2の言語モデリングの目標と一致し、より大きなGemma-3の変種よりも優れているが、プロンプトベースのジェイルブレイク攻撃に対する耐性は保たれている。
以上の結果から, RePSは, ステアリングと抑制の双方に対して, 解釈可能かつ堅牢な代替手段である可能性が示唆された。
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - ControlVAE: Tuning, Analytical Properties, and Performance Analysis [14.272917020105147]
ControlVAEは、新しい変分自動エンコーダフレームワークである。
VAEモデルのKL分割を所定の値に安定化する。
復元品質とKL分割の良好なトレードオフを達成することができる。
論文 参考訳(メタデータ) (2020-10-31T12:32:39Z) - ControlVAE: Controllable Variational Autoencoder [16.83870832766681]
変分オートエンコーダ(VAE)は、ダイアログ生成、画像生成、非絡み合い表現学習など、様々な用途で広く使われている。
ControlVAEは自動制御理論にインスパイアされたコントローラと基本的なVAEを組み合わせることで、生成モデルの性能を向上させる。
論文 参考訳(メタデータ) (2020-04-13T15:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。