論文の概要: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- arxiv url: http://arxiv.org/abs/2406.02721v3
- Date: Sat, 12 Oct 2024 08:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 18:29:31.872328
- Title: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
- Title(参考訳): プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御
- Authors: Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Dan Zhang, Difan Zou, Yisong Yue, Ziniu Hu,
- Abstract要約: SelfControlは、明示的な人間のアノテーションを持たない推論時モデル制御方法である。
勾配は、望まれる振る舞いに対する自己回帰生成プロセスを制御するために使用される。
実験では,複数の領域にまたがるSelfControlの有効性を実証した。
- 参考スコア(独自算出の注目度): 47.00373913550571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SelfControl, an inference-time model control method utilizing gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a desired behavior expressed in a natural language suffix string concatenated to the input prompt, SelfControl computes gradients of the LLM's self-evaluation of the suffix with respect to its latent representations. The gradients are used to directly control the auto-regressive generation process towards desired behaviors, which eliminates human supervision, achieves precise and transparent control, and offers on-the-fly adaptability. To further enhance efficiency, we introduce SelfControl_{Prefix}, a compact module that encapsulates the learned representations from gradients into a SelfControl_{Prefix}, facilitating efficient inference-time control with no latency compared to the original model and allowing control for multiple behaviors simultaneously. Our experiments demonstrate SelfControl's efficacy across multiple domains, where it improves over SOTA for 8.3% in detoxification, 3.1% in truthfulness enhancement, 4%~10% in controlling on emotion tones, and 48.2% in privacy protection, i.e., completely remove privacy leakage issue. Additionally, we demonstrate that SelfControl can be used for data synthesis and to improve reasoning abilities.
- Abstract(参考訳): 本研究では,多言語モデル(LLM)の振る舞いを明示的なアノテーションなしで制御するために,勾配を利用した推論時モデル制御法であるSelfControlを提案する。
入力プロンプトに連結した自然言語接尾辞文字列で表現された所望の振舞いが与えられたとき、SelfControlはその潜在表現に関してLLMの接尾辞に対する自己評価の勾配を計算する。
勾配は、人間の監督を排除し、正確かつ透明な制御を達成し、オンザフライ適応性を提供する、望ましい行動に向けて自動回帰生成プロセスを直接制御するために使用される。
このモジュールは勾配から学習した表現をSelfControl_{Prefix}にカプセル化し、オリジナルのモデルと比較して遅延のない効率的な推論時間制御を容易にし、同時に複数の動作の制御を可能にする。
実験では、複数のドメインにわたるSelfControlの有効性を実証し、SOTAを8.3%で改善し、真理性の向上が3.1%、感情のトーン制御が4%から10%、プライバシー保護が48.2%、すなわちプライバシー漏洩の問題を完全に排除した。
さらに,SelfControlはデータ合成や推論能力の向上に有効であることを示す。
関連論文リスト
- Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs [6.715533531385597]
Role-Playing Agents (RPAs) におけるパーソナリティコントロールは、トレーニング不要の手法によって一般的に達成される。
本稿では,Big Five 30-facetモデルに適合する顔レベルの人格制御ベクトルを学習するSparse AutoEncoderフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T12:39:02Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Steer Model beyond Assistant: Controlling System Prompt Strength via Contrastive Decoding [33.569783099301695]
大規模な言語モデルは複雑な命令で優れているが、アシスタントペルソナからの逸脱に苦慮している。
本稿では,プロンプト付着を連続制御として扱う訓練不要なシステムプロンプト強度について紹介する。
論文 参考訳(メタデータ) (2026-01-10T02:56:38Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - End-to-End Visual Autonomous Parking via Control-Aided Attention [30.52881549605385]
CAA-Policyは、正確な駐車のためのエンドツーエンドの模倣学習システムである。
制御信号は、新しい制御支援注意機構を通じて視覚的注意の学習を導くことができる。
論文 参考訳(メタデータ) (2025-09-14T04:51:19Z) - NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer [14.644014499085943]
NanoControlは、制御可能なテキスト・ツー・イメージ生成のためのバックボーンネットワークとしてFluxを使用している。
我々のモデルは、最先端の制御可能なテキスト・ツー・イメージ生成性能を実現する。
パラメータ数は0.024%増加し、GFLOPは0.029%増加し、高効率な制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2025-08-14T07:54:44Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Fine-Tuning Language Models Using Formal Methods Feedback [53.24085794087253]
我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
論文 参考訳(メタデータ) (2023-10-27T16:24:24Z) - Focused Prefix Tuning for Controllable Text Generation [19.88484696133778]
この問題を緩和し、制御者が所望の属性にフォーカスできるようにするために、FPT( Focus prefix tuning)を提案する。
実験結果から,FPTは単一属性制御タスクにおけるベースラインモデルよりも制御精度とテキスト流速を向上できることが示された。
論文 参考訳(メタデータ) (2023-06-01T06:00:43Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - ControlVAE: Tuning, Analytical Properties, and Performance Analysis [14.272917020105147]
ControlVAEは、新しい変分自動エンコーダフレームワークである。
VAEモデルのKL分割を所定の値に安定化する。
復元品質とKL分割の良好なトレードオフを達成することができる。
論文 参考訳(メタデータ) (2020-10-31T12:32:39Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。