論文の概要: Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations
- arxiv url: http://arxiv.org/abs/2505.11615v1
- Date: Fri, 16 May 2025 18:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.739977
- Title: Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations
- Title(参考訳): 行動表現とニューラル表現の調整による大規模言語モデルにおけるステアリングリスク推定
- Authors: Jian-Qiao Zhu, Haijiang Yan, Thomas L. Griffiths,
- Abstract要約: ステアリングベクトルを明らかにするための原理的アプローチを提案する。
我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
- 参考スコア(独自算出の注目度): 4.029252551781513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changing the behavior of large language models (LLMs) can be as straightforward as editing the Transformer's residual streams using appropriately constructed "steering vectors." These modifications to internal neural activations, a form of representation engineering, offer an effective and targeted means of influencing model behavior without retraining or fine-tuning the model. But how can such steering vectors be systematically identified? We propose a principled approach for uncovering steering vectors by aligning latent representations elicited through behavioral methods (specifically, Markov chain Monte Carlo with LLMs) with their neural counterparts. To evaluate this approach, we focus on extracting latent risk preferences from LLMs and steering their risk-related outputs using the aligned representations as steering vectors. We show that the resulting steering vectors successfully and reliably modulate LLM outputs in line with the targeted behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の振る舞いを変えることは、適切に構築された「ステアリングベクター」を使用してトランスフォーマーの残留ストリームを編集するのと同じくらい簡単である。
これらの内部の神経アクティベーションへの修正は、表現工学の一形態であり、モデルを再トレーニングしたり微調整したりすることなく、モデル行動に影響を与える効果的でターゲットの手段を提供する。
しかし、そのようなステアリングベクトルを体系的に識別するにはどうすればよいのか?
本稿では,行動的手法(具体的にはマルコフ連鎖モンテカルロとLLM)によって引き起こされる潜在表現を,その神経的表現と整合させることにより,ステアリングベクトルを明らかにするための原理的アプローチを提案する。
このアプローチを評価するために,LLM から潜伏リスク選好を抽出し,アライメント表現をステアリングベクトルとして使用したリスク関連出力をステアリングする。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
関連論文リスト
- ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - On the Limitations of Steering in Language Model Alignment [10.014248704653]
ステアリングベクトルの限界をアライメント機構として評価する枠組みを提案する。
本研究は,トランスフォーマーフックの介入とアントロニムに基づく関数ベクトルの枠組みを用いて,ステアリング効果におけるプロンプト構造とコンテキスト複雑さの役割を評価する。
論文 参考訳(メタデータ) (2025-05-02T10:08:34Z) - Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。
モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。
LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-04-28T04:58:43Z) - Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。