Fugu-MT 論文翻訳(概要): On the Limitations of Steering in Language Model Alignment

論文の概要: On the Limitations of Steering in Language Model Alignment

arxiv url: http://arxiv.org/abs/2505.01162v1
Date: Fri, 02 May 2025 10:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:19.989746
Title: On the Limitations of Steering in Language Model Alignment
Title（参考訳）: 言語モデルアライメントにおけるステアリングの限界について
Authors: Chebrolu Niranjan, Kokil Jaidka, Gerard Christopher Yeo,
Abstract要約: ステアリングベクトルの限界をアライメント機構として評価する枠組みを提案する。本研究は,トランスフォーマーフックの介入とアントロニムに基づく関数ベクトルの枠組みを用いて,ステアリング効果におけるプロンプト構造とコンテキスト複雑さの役割を評価する。
参考スコア（独自算出の注目度）: 10.014248704653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Steering vectors are a promising approach to aligning language model behavior at inference time. In this paper, we propose a framework to assess the limitations of steering vectors as alignment mechanisms. Using a framework of transformer hook interventions and antonym-based function vectors, we evaluate the role of prompt structure and context complexity in steering effectiveness. Our findings indicate that steering vectors are promising for specific alignment tasks, such as value alignment, but may not provide a robust foundation for general-purpose alignment in LLMs, particularly in complex scenarios. We establish a methodological foundation for future investigations into steering capabilities of reasoning models.
Abstract（参考訳）: ステアリングベクトルは、推論時に言語モデルの振る舞いを調整するための有望なアプローチである。本稿では, ステアリングベクトルの限界をアライメント機構として評価する枠組みを提案する。本研究は,トランスフォーマーフックの介入とアントロニムに基づく関数ベクトルの枠組みを用いて,ステアリング効果におけるプロンプト構造とコンテキスト複雑さの役割を評価する。以上の結果から, ステアリングベクトルは値アライメントなどの特定のアライメントタスクに対して有望であるが, LLMにおける汎用アライメント, 特に複雑なシナリオにおけるロバストな基盤にはならない可能性が示唆された。推論モデルの操舵能力に関する今後の研究のための方法論的基盤を確立する。

関連論文リスト

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文参考訳（メタデータ） (2026-02-19T17:13:44Z)
On the Identifiability of Steering Vectors in Large Language Models [0.0]
アクティベーションステアリング法は大規模言語モデルの振る舞いを制御するために広く用いられている。この解釈は、操舵方向が入力出力動作から識別可能で一意に回復可能であることを暗黙的に仮定する。操舵ベクトルは、行動的に区別不能な介入の大きな同値類のため、基本的には識別不可能であることを示す。
論文参考訳（メタデータ） (2026-02-06T15:53:50Z)
Steering Vector Fields for Context-Aware Inference-Time Control in Large Language Models [12.506018278890862]
本稿では,各アクティベーションにおける操舵方向を局所勾配で定義した,微分可能な概念スコアリング関数を提案する。この定式化は、共有された整列された概念空間における協調した多層干渉をサポートする。複数の言語モデル全体で、SVFはより強く信頼性の高い制御を提供し、推論時ステアリングの実用性を改善している。
論文参考訳（メタデータ） (2026-02-02T05:14:42Z)
PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。 PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文参考訳（メタデータ） (2026-01-07T12:38:56Z)
Understanding the Effects of Domain Finetuning on LLMs [60.874016669351874]
大規模医療言語モデルにおけるドメイン固有微調整に関する最初の体系的研究について述べる。解析の結果,微調整は表現部分空間の小さな部分集合のみを修飾することがわかった。サブ空間におけるこれらの変化を解釈するために、微調整によって引き起こされる方向パラメータシフトを明示的にキャプチャするチューニングベクトルを提案する。
論文参考訳（メタデータ） (2025-10-10T13:14:06Z)
SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:57Z)
ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。 3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文参考訳（メタデータ） (2025-05-18T08:55:46Z)
Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文参考訳（メタデータ） (2025-05-16T18:23:10Z)
Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文参考訳（メタデータ） (2025-02-26T06:13:01Z)
Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文参考訳（メタデータ） (2024-10-15T08:38:20Z)
Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。分散において、ステアビリティは異なる入力間で高度に変動する。アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文参考訳（メタデータ） (2024-07-17T08:32:03Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
AutoGuide: Automated Generation and Selection of Context-Aware Guidelines for Large Language Model Agents [74.17623527375241]
オフライン体験からコンテキスト認識ガイドラインを自動的に生成する,AutoGuideという新しいフレームワークを導入する。その結果,本ガイドラインはエージェントの現在の意思決定プロセスに関連性のある知識の提供を促進する。評価の結果, AutoGuide は複雑なベンチマーク領域において, 競争ベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-03-13T22:06:03Z)
Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文参考訳（メタデータ） (2022-12-16T15:46:15Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)
Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文参考訳（メタデータ） (2022-05-10T19:04:37Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。