論文の概要: Effectively Steer LLM To Follow Preference via Building Confident Directions
- arxiv url: http://arxiv.org/abs/2503.02989v1
- Date: Tue, 04 Mar 2025 20:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:40.671768
- Title: Effectively Steer LLM To Follow Preference via Building Confident Directions
- Title(参考訳): LLMが信頼関係の方向性を生かして推論を効果的に進める
- Authors: Bingqing Song, Boran Han, Shuai Zhang, Hao Wang, Haoyang Fang, Bonan Min, Yuyang Wang, Mingyi Hong,
- Abstract要約: 本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
- 参考スコア(独自算出の注目度): 39.40603123075168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Having an LLM that aligns with human preferences is essential for accommodating individual needs, such as maintaining writing style or generating specific topics of interest. The majority of current alignment methods rely on fine-tuning or prompting, which can be either costly or difficult to control. Model steering algorithms, which modify the model output by constructing specific steering directions, are typically easy to implement and optimization-free. However, their capabilities are typically limited to steering the model into one of the two directions (i.e., bidirectional steering), and there has been no theoretical understanding to guarantee their performance. In this work, we propose a theoretical framework to understand and quantify the model steering methods. Inspired by the framework, we propose a confident direction steering method (CONFST) that steers LLMs via modifying their activations at inference time. More specifically, CONFST builds a confident direction that is closely aligned with users' preferences, and this direction is then added to the activations of the LLMs to effectively steer the model output. Our approach offers three key advantages over popular bidirectional model steering methods: 1) It is more powerful, since multiple (i.e. more than two) users' preferences can be aligned simultaneously; 2) It is simple to implement, since there is no need to determine which layer to add the steering vector to; 3) No explicit user instruction is required. We validate our method on GPT-2 XL (1.5B), Mistral (7B) and Gemma-it (9B) models for tasks that require shifting the output of LLMs across various topics and styles, achieving superior performance over competing methods.
- Abstract(参考訳): 人間の好みに合わせたLCMを持つことは、書き方を維持することや特定の関心事を生成することなど、個々のニーズの調整に不可欠である。
現在のアライメント手法の大半は微調整やプロンプトに依存しており、コストがかかるか制御が難しい。
モデルステアリングアルゴリズムは、特定のステアリング方向を構築してモデル出力を変更するが、通常は実装や最適化は容易である。
しかしながら、それらの能力は典型的には2つの方向(すなわち双方向の操舵)の1つに限られており、それらの性能を保証する理論的には理解されていない。
本研究では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,提案手法は,推定時間にアクティベーションを変更することでLCMを操る,確実な方向ステアリング法(CONFST)を提案する。
より具体的には、CONFSTはユーザーの好みと密接に一致した自信ある方向を構築し、この方向をLCMのアクティベートに追加し、モデル出力を効果的に制御する。
私たちのアプローチは、一般的な双方向モデルステアリング方法よりも3つの大きな利点を提供します。
1) 複数の(つまり2つ以上の)ユーザの好みを同時に調整できるため、より強力である。
2) どの層にステアリングベクターを追加するかを決定する必要はないので、実装は簡単です。
3)明示的なユーザ命令は不要である。
GPT-2 XL (1.5B) と Mistral (7B) と Gemma-it (9B) のモデルを用いて,LLM の出力を様々なトピックやスタイルにシフトする必要のあるタスクに対して検証し,競合する手法よりも優れた性能を実現する。
関連論文リスト
- Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Steering Large Language Models with Feature Guided Activation Additions [0.0]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。