論文の概要: The Effectiveness of Style Vectors for Steering Large Language Models: A Human Evaluation
- arxiv url: http://arxiv.org/abs/2601.21505v1
- Date: Thu, 29 Jan 2026 10:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.730377
- Title: The Effectiveness of Style Vectors for Steering Large Language Models: A Human Evaluation
- Title(参考訳): 大規模言語モデルのステアリングにおけるスタイルベクトルの有効性:人間による評価
- Authors: Diaoulé Diallo, Katharina Dworatzyk, Sophie Jentzsch, Peer Schütt, Sabine Theis, Tobias Hecking,
- Abstract要約: emphActivation steeringは、迅速なエンジニアリングと微調整のための軽量な代替手段を提供する。
Prolificを通じて、190人の参加者から7000以上のクラウドソースによる評価を集めています。
人間とモデルベースの品質評価との間には、強い整合性がある。
アルパカからLlaMA-3へのアップグレードにより、感情や強さに大きく影響し、より一貫した操舵が可能となった。
- 参考スコア(独自算出の注目度): 1.1498912417354192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling the behavior of large language models (LLMs) at inference time is essential for aligning outputs with human abilities and safety requirements. \emph{Activation steering} provides a lightweight alternative to prompt engineering and fine-tuning by directly modifying internal activations to guide generation. This research advances the literature in three significant directions. First, while previous work demonstrated the technical feasibility of steering emotional tone using automated classifiers, this paper presents the first human evaluation of activation steering concerning the emotional tone of LLM outputs, collecting over 7,000 crowd-sourced ratings from 190 participants via Prolific ($n=190$). These ratings assess both perceived emotional intensity and overall text quality. Second, we find strong alignment between human and model-based quality ratings (mean $r=0.776$, range $0.157$--$0.985$), indicating automatic scoring can proxy perceived quality. Moderate steering strengths ($λ\approx 0.15$) reliably amplify target emotions while preserving comprehensibility, with the strongest effects for disgust ($η_p^2 = 0.616$) and fear ($η_p^2 = 0.540$), and minimal effects for surprise ($η_p^2 = 0.042$). Finally, upgrading from Alpaca to LlaMA-3 yielded more consistent steering with significant effects across emotions and strengths (all $p < 0.001$). Inter-rater reliability was high (ICC $= 0.71$--$0.87$), underscoring the robustness of the findings. These findings support activation-based control as a scalable method for steering LLM behavior across affective dimensions.
- Abstract(参考訳): 大規模言語モデル(LLM)の動作を推論時に制御することは、出力を人間の能力や安全要件と整合させるのに不可欠である。
\emph{Activation steering}は、内部のアクティベーションを直接変更して生成をガイドすることによって、エンジニアリングと微調整を迅速に行うための軽量な代替手段を提供する。
この研究は文学を3つの重要な方向に進める。
まず, 自動分類器を用いた情緒評価の技術的実現可能性を示す一方で, 本論文では, 190人以上の参加者からProlific(n=190$)を介して, LLM出力の感情的トーンに関するアクティベーション・ステアリングの人的評価を行った。
これらの評価は、感情の強さと全体のテキスト品質の両方を評価する。
第二に、人間とモデルに基づく品質評価(平均$r=0.776$、範囲$0.157$--0.985$)は、自動スコアリングによって知覚された品質を促進できることを示す。
適度なステアリング強度(λ-approx 0.15$)は、不安(η_p^2 = 0.616$)と恐怖(η_p^2 = 0.540$)に対する最も強い効果(η_p^2 = 0.042$)と、驚き(η_p^2 = 0.042$)を確実に増幅する。
最後に、AlpacaからLlaMA-3へのアップグレードにより、感情や強み(すべて$p < 0.001$)に大きく影響する、より一貫性のあるステアリングが得られた。
信頼性は高い(ICC $= 0.71$--0.87$)。
これらの知見は, LLMの動作を感情的次元にわたって操るスケーラブルな方法として, アクティベーションベースの制御を支援する。
関連論文リスト
- Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models [0.3966526231056968]
アクティベーションステアリング(AS)は、既存の2つのポストトレーニング方法に代わる、安価で、高速で、制御可能な代替手段を約束する。
完全に自動化された手法のファミリーであるPainless Activation Steering (PAS)を紹介する。
PASは行動タスクのパフォーマンスを確実に向上させるが、インテリジェンス指向のタスクには向いていない。
論文 参考訳(メタデータ) (2025-09-25T23:25:47Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文 参考訳(メタデータ) (2025-07-15T13:48:35Z) - IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文 参考訳(メタデータ) (2025-06-02T15:32:36Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective [33.19778298286475]
我々は、潜在因果値グラフが大きな言語モデル(LLM)の値次元の根底にあることを論じ、アライメントトレーニングにもかかわらず、この構造は人間の値システムと大きく異なるままである。
これらの因果値グラフを利用して、ロールベースのプロンプトとスパースオートエンコーダ(SAE)ステアリングという2つの軽量なバリューステアリング手法を導出する。
Gemma-2B-ITとLlama3-8B-ITの実験により,本手法の有効性と可制御性を示した。
論文 参考訳(メタデータ) (2024-12-31T18:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。