論文の概要: To be or not to be? an exploration of continuously controllable prompt
engineering
- arxiv url: http://arxiv.org/abs/2311.09773v1
- Date: Thu, 16 Nov 2023 10:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:56:43.988465
- Title: To be or not to be? an exploration of continuously controllable prompt
engineering
- Title(参考訳): to be be or not to be?
連続制御可能なプロンプトエンジニアリングの探求
- Authors: Yuhan Sun, Mukai Li, Yixin Cao, Kun Wang, Wenxiao Wang, Xingyu Zeng,
Rui Zhao
- Abstract要約: 制御PE(Continuously Controllable Prompt Engineering)を導入し,より微細な調整による効果の促進を実現する。
このアプローチはLoRA(Low-Rank Adaptation)の力を利用して、重み付けを促進する効果を生み出す。
提案手法では, プロンプト蒸留のための特別なデータセットの生成, それらのプロンプトをLoRAモデルに組み込んで, プロンプトの影響を調節するために, LoRAマージ重量を慎重に調整する。
短い応答のプロンプトの生成、拒絶のプロンプト、チェーン・オブ・シント・プロンプトなど、さまざまなプロンプトを制御するための有望なソリューションであることが証明されている。
- 参考スコア(独自算出の注目度): 21.915123121438537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the use of large language models becomes more widespread, techniques like
parameter-efficient fine-tuning and other methods for controlled generation are
gaining traction for customizing models and managing their outputs. However,
the challenge of precisely controlling how prompts influence these models is an
area ripe for further investigation. In response, we introduce ControlPE
(Continuously Controllable Prompt Engineering). ControlPE enables finer
adjustments to prompt effects, complementing existing prompt engineering, and
effectively controls continuous targets. This approach harnesses the power of
LoRA (Low-Rank Adaptation) to create an effect akin to prompt weighting,
enabling fine-tuned adjustments to the impact of prompts. Our methodology
involves generating specialized datasets for prompt distillation, incorporating
these prompts into the LoRA model, and carefully adjusting LoRA merging weight
to regulate the influence of prompts. This provides a dynamic and adaptable
tool for prompt control. Through our experiments, we have validated the
practicality and efficacy of ControlPE. It proves to be a promising solution
for control a variety of prompts, ranging from generating short responses
prompts, refusal prompts to chain-of-thought prompts.
- Abstract(参考訳): 大規模言語モデルの使用が広まるにつれて、パラメータ効率の良い微調整や制御された生成方法といった手法が、モデルをカスタマイズし、出力を管理するための牽引力を高めている。
しかし、これらのモデルに影響を及ぼすプロンプトを正確に制御することの難しさは、さらなる調査に欠かせない領域である。
これに対して,制御PE (Continuously Controllable Prompt Engineering) を導入する。
ControlPEは、効果を促進させ、既存のプロンプトエンジニアリングを補完し、継続的な目標を効果的に制御する。
このアプローチはLoRA(Low-Rank Adaptation)の力を利用して、重み付けを早める効果を生み出し、プロンプトの影響を微調整できる。
提案手法では, プロンプト蒸留のための特別なデータセットの生成, それらのプロンプトをLoRAモデルに組み込んで, プロンプトの影響を調節するために, LoRAマージ重量を慎重に調整する。
これは、プロンプト制御のための動的で適応可能なツールを提供する。
実験により, controlpeの実用性と有効性を検証した。
短い応答のプロンプトの生成、拒絶のプロンプト、チェーン・オブ・シント・プロンプトなど、さまざまなプロンプトを制御するための有望なソリューションであることが証明されている。
関連論文リスト
- Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Prompt-Based Length Controlled Generation with Reinforcement Learning [48.49553921757085]
本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-23T09:43:10Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Online Learning and Distributed Control for Residential Demand Response [16.61679791774638]
本稿では,インセンティブに基づく住宅需要応答(DR)における空調負荷の自動制御手法について検討する。
DRイベントにおけるAC制御問題を,室内熱力学と顧客のオプトアウト状態を統合した多周期遷移最適化として定式化する。
本稿では、顧客の振る舞いを学習し、リアルタイムのAC制御スキームを作成するためのオンラインDR制御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-11T03:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。