Fugu-MT 論文翻訳(概要): Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller

論文の概要: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller

arxiv url: http://arxiv.org/abs/2406.02721v3
Date: Sat, 12 Oct 2024 08:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 18:29:31.872328
Title: Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller
Title（参考訳）: プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御
Authors: Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Dan Zhang, Difan Zou, Yisong Yue, Ziniu Hu,
Abstract要約: SelfControlは、明示的な人間のアノテーションを持たない推論時モデル制御方法である。勾配は、望まれる振る舞いに対する自己回帰生成プロセスを制御するために使用される。実験では,複数の領域にまたがるSelfControlの有効性を実証した。
参考スコア（独自算出の注目度）: 47.00373913550571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose SelfControl, an inference-time model control method utilizing gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a desired behavior expressed in a natural language suffix string concatenated to the input prompt, SelfControl computes gradients of the LLM's self-evaluation of the suffix with respect to its latent representations. The gradients are used to directly control the auto-regressive generation process towards desired behaviors, which eliminates human supervision, achieves precise and transparent control, and offers on-the-fly adaptability. To further enhance efficiency, we introduce SelfControl_{Prefix}, a compact module that encapsulates the learned representations from gradients into a SelfControl_{Prefix}, facilitating efficient inference-time control with no latency compared to the original model and allowing control for multiple behaviors simultaneously. Our experiments demonstrate SelfControl's efficacy across multiple domains, where it improves over SOTA for 8.3% in detoxification, 3.1% in truthfulness enhancement, 4%~10% in controlling on emotion tones, and 48.2% in privacy protection, i.e., completely remove privacy leakage issue. Additionally, we demonstrate that SelfControl can be used for data synthesis and to improve reasoning abilities.
Abstract（参考訳）: 本研究では,多言語モデル(LLM)の振る舞いを明示的なアノテーションなしで制御するために,勾配を利用した推論時モデル制御法であるSelfControlを提案する。入力プロンプトに連結した自然言語接尾辞文字列で表現された所望の振舞いが与えられたとき、SelfControlはその潜在表現に関してLLMの接尾辞に対する自己評価の勾配を計算する。勾配は、人間の監督を排除し、正確かつ透明な制御を達成し、オンザフライ適応性を提供する、望ましい行動に向けて自動回帰生成プロセスを直接制御するために使用される。このモジュールは勾配から学習した表現をSelfControl_{Prefix}にカプセル化し、オリジナルのモデルと比較して遅延のない効率的な推論時間制御を容易にし、同時に複数の動作の制御を可能にする。実験では、複数のドメインにわたるSelfControlの有効性を実証し、SOTAを8.3%で改善し、真理性の向上が3.1%、感情のトーン制御が4%から10%、プライバシー保護が48.2%、すなわちプライバシー漏洩の問題を完全に排除した。さらに,SelfControlはデータ合成や推論能力の向上に有効であることを示す。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。 ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文参考訳（メタデータ） (2024-04-11T17:59:09Z)
PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文参考訳（メタデータ） (2024-03-31T23:46:51Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Fine-Tuning Language Models Using Formal Methods Feedback [53.24085794087253]
我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
論文参考訳（メタデータ） (2023-10-27T16:24:24Z)
Focused Prefix Tuning for Controllable Text Generation [19.88484696133778]
この問題を緩和し、制御者が所望の属性にフォーカスできるようにするために、FPT( Focus prefix tuning)を提案する。実験結果から,FPTは単一属性制御タスクにおけるベースラインモデルよりも制御精度とテキスト流速を向上できることが示された。
論文参考訳（メタデータ） (2023-06-01T06:00:43Z)
Learning Self-Regularized Adversarial Views for Self-Supervised Vision Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。また、自己教師型学習のための強化政策探索空間も提示する。
論文参考訳（メタデータ） (2022-10-16T06:20:44Z)
Steady-State Error Compensation in Reference Tracking and Disturbance Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文参考訳（メタデータ） (2022-01-31T16:29:19Z)
ControlVAE: Tuning, Analytical Properties, and Performance Analysis [14.272917020105147]
ControlVAEは、新しい変分自動エンコーダフレームワークである。 VAEモデルのKL分割を所定の値に安定化する。復元品質とKL分割の良好なトレードオフを達成することができる。
論文参考訳（メタデータ） (2020-10-31T12:32:39Z)
Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。 AntLer は確率 1 と任意に最適な解を近似することを示す。
論文参考訳（メタデータ） (2020-07-24T07:00:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。