論文の概要: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- arxiv url: http://arxiv.org/abs/2406.02721v1
- Date: Tue, 4 Jun 2024 19:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:58:01.862664
- Title: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- Title(参考訳): プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御
- Authors: Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Difan Zou, Yisong Yue, Ziniu Hu,
- Abstract要約: Self-Controlは、人間の明示的なアノテーションを使わずに、大規模言語モデル(LLM)の振る舞いを制御する新しい方法である。
自己制御は、モデルの隠された状態に関するモデルの自己判断の勾配を計算する。
実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。
- 参考スコア(独自算出の注目度): 47.39322226776273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Self-Control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a guideline expressed in suffix string and the model's self-assessment of adherence, Self-Control computes the gradient of this self-judgment concerning the model's hidden states, directly influencing the auto-regressive generation process towards desired behaviors. To enhance efficiency, we introduce Self-Control_{prefix}, a compact module that encapsulates the learned representations from suffix gradients into a Prefix Controller, facilitating inference-time control for various LLM behaviors. Our experiments demonstrate Self-Control's efficacy across multiple domains, including emotional modulation, ensuring harmlessness, and enhancing complex reasoning. Especially, Self-Control_{prefix} enables a plug-and-play control and jointly controls multiple attributes, improving model outputs without altering model parameters or increasing inference-time costs.
- Abstract(参考訳): 本研究では, 接尾辞勾配を用いた多言語モデル(LLM)の動作制御手法であるSelf-Controlを提案する。
接尾辞文字列で表現されたガイドラインとモデルの自己評価が与えられたとき、自己制御はモデルが隠した状態に関してこの自己判断の勾配を計算し、自動回帰生成プロセスに直接望ましい振る舞いに影響を及ぼす。
効率を向上させるために,Suffixグラデーションから学習した表現をPrefix Controllerにカプセル化するコンパクトモジュールであるSelf-Control_{prefixを導入し,様々なLLM動作の推論時間制御を容易にする。
実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。
特に、Self-Control_{prefix}は、プラグインとプレイの制御を可能にし、複数の属性を共同で制御し、モデルパラメータを変更することなくモデル出力を改善する。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Activation Addition: Steering Language Models Without Optimization [40.04138190785384]
アクティベーションエンジニアリングは、モデル動作を予測可能に変更するために、推論時のアクティベーションを変更する。
ActAddは微調整やRLHFよりも計算と実装の労力がはるかに少ない。
その計算オーバーヘッドは、モデルサイズの増加よりも安定または改善しているように見える。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。