論文の概要: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- arxiv url: http://arxiv.org/abs/2406.02721v1
- Date: Tue, 4 Jun 2024 19:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:58:01.862664
- Title: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- Title(参考訳): プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御
- Authors: Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Difan Zou, Yisong Yue, Ziniu Hu,
- Abstract要約: Self-Controlは、人間の明示的なアノテーションを使わずに、大規模言語モデル(LLM)の振る舞いを制御する新しい方法である。
自己制御は、モデルの隠された状態に関するモデルの自己判断の勾配を計算する。
実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。
- 参考スコア(独自算出の注目度): 47.39322226776273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Self-Control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a guideline expressed in suffix string and the model's self-assessment of adherence, Self-Control computes the gradient of this self-judgment concerning the model's hidden states, directly influencing the auto-regressive generation process towards desired behaviors. To enhance efficiency, we introduce Self-Control_{prefix}, a compact module that encapsulates the learned representations from suffix gradients into a Prefix Controller, facilitating inference-time control for various LLM behaviors. Our experiments demonstrate Self-Control's efficacy across multiple domains, including emotional modulation, ensuring harmlessness, and enhancing complex reasoning. Especially, Self-Control_{prefix} enables a plug-and-play control and jointly controls multiple attributes, improving model outputs without altering model parameters or increasing inference-time costs.
- Abstract(参考訳): 本研究では, 接尾辞勾配を用いた多言語モデル(LLM)の動作制御手法であるSelf-Controlを提案する。
接尾辞文字列で表現されたガイドラインとモデルの自己評価が与えられたとき、自己制御はモデルが隠した状態に関してこの自己判断の勾配を計算し、自動回帰生成プロセスに直接望ましい振る舞いに影響を及ぼす。
効率を向上させるために,Suffixグラデーションから学習した表現をPrefix Controllerにカプセル化するコンパクトモジュールであるSelf-Control_{prefixを導入し,様々なLLM動作の推論時間制御を容易にする。
実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。
特に、Self-Control_{prefix}は、プラグインとプレイの制御を可能にし、複数の属性を共同で制御し、モデルパラメータを変更することなくモデル出力を改善する。
関連論文リスト
- Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Fine-Tuning Language Models Using Formal Methods Feedback [53.24085794087253]
我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
論文 参考訳(メタデータ) (2023-10-27T16:24:24Z) - Focused Prefix Tuning for Controllable Text Generation [19.88484696133778]
この問題を緩和し、制御者が所望の属性にフォーカスできるようにするために、FPT( Focus prefix tuning)を提案する。
実験結果から,FPTは単一属性制御タスクにおけるベースラインモデルよりも制御精度とテキスト流速を向上できることが示された。
論文 参考訳(メタデータ) (2023-06-01T06:00:43Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - ControlVAE: Tuning, Analytical Properties, and Performance Analysis [14.272917020105147]
ControlVAEは、新しい変分自動エンコーダフレームワークである。
VAEモデルのKL分割を所定の値に安定化する。
復元品質とKL分割の良好なトレードオフを達成することができる。
論文 参考訳(メタデータ) (2020-10-31T12:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。