論文の概要: Prompt-Based Length Controlled Generation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.12030v2
- Date: Sat, 30 Sep 2023 07:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:23:08.490584
- Title: Prompt-Based Length Controlled Generation with Reinforcement Learning
- Title(参考訳): 強化学習によるプロンプトベース長制御生成
- Authors: Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.49553921757085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) like ChatGPT and GPT-4 have attracted great
attention given their surprising performance on a wide range of NLP tasks.
Length controlled generation of LLMs emerges as an important topic, which
enables users to fully leverage the capability of LLMs in more real-world
scenarios like generating a proper answer or essay of a desired length. In
addition, the autoregressive generation in LLMs is extremely time-consuming,
while the ability of controlling this generated length can reduce the inference
cost by limiting the length. Therefore, we propose a prompt-based length
control method to achieve high-accuracy length controlled generation. In
particular, we adopt reinforcement learning with the reward signal given by
either trainable or rule-based reward models, which further enhances the
length-control ability of LLMs by rewarding outputs that follows pre-defined
control instruction. To enable rule-based inference, we also introduce standard
prompt extractor to collect the standard control information from users' input.
Experiments show that our method significantly improves the accuracy of
prompt-based length control for summarization task on popular datasets like
CNNDM and NYT. Both the standard prompt extractor and the RL-tuned model have
show strong generalization ability to unseen control prompt templates.
- Abstract(参考訳): ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、幅広い NLP タスクにおける驚くべきパフォーマンスから大きな注目を集めている。
長さを制御したLLMの生成は重要なトピックとして現れ、ユーザーは所望の長さの適切な回答やエッセイを生成するなど、より現実的なシナリオでLLMの能力を完全に活用することができる。
さらに、LLMにおける自己回帰生成は極めて時間がかかり、この生成した長さを制御する能力は、長さを制限することで推論コストを低減することができる。
そこで本研究では,高精度な長さ制御を実現するためのプロンプトベース長さ制御手法を提案する。
特に,訓練可能あるいは規則に基づく報酬モデルが与える報酬信号を用いた強化学習を採用することで,事前定義された制御命令に従う出力を報酬することにより,llmの長さ制御能力がさらに向上する。
また,ルールベースの推論を可能にするために,ユーザの入力から標準制御情報を収集する標準プロンプト抽出器を導入する。
実験により,cnndmやnytなどの一般的なデータセットにおける要約タスクに対するプロンプトベース長制御の精度が大幅に向上した。
標準プロンプト抽出器とrlチューニングモデルの両方が、プロンプトテンプレートの制御を無視する強力な一般化能力を示している。
関連論文リスト
- LLM can Achieve Self-Regulation via Hyperparameter Aware Generation [88.69052513433603]
大規模言語モデル (LLM) は、生成されたテキストを制御するために様々な復号法を用いる。
LLMはこれらのデコード戦略の存在を意識し、自己統制できるのか?
ハイパーパラメータ・アウェア・ジェネレーション(HAG)と呼ばれる新しいテキスト生成パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T11:18:22Z) - LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language
Models [72.77653698874678]
本稿では,大規模言語モデル(LLM)を自動回帰時系列予測器として活用するためにAutoTimesを提案する。
提案手法は, LLM, 追加テキスト, 時系列を命令として利用することにより, 顕著な手法の一般化を実現し, 性能の向上を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [54.53324095171722]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Integrating Summarization and Retrieval for Enhanced Personalization via
Large Language Models [11.950478880423733]
パーソナライゼーションは自然言語処理(NLP)システムにおけるユーザエクスペリエンスにおいて重要な要素である。
LLM(Large Language Models)の出現によって、重要な疑問は、これらのモデルを使ってユーザエクスペリエンスをよりパーソナライズする方法である。
LLMが生成するタスク対応ユーザ要約を用いた,新しい要約型パーソナライゼーションを提案する。
論文 参考訳(メタデータ) (2023-10-30T23:40:41Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。