論文の概要: Prompt-Based Length Controlled Generation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.12030v2
- Date: Sat, 30 Sep 2023 07:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:23:08.490584
- Title: Prompt-Based Length Controlled Generation with Reinforcement Learning
- Title(参考訳): 強化学習によるプロンプトベース長制御生成
- Authors: Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.49553921757085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) like ChatGPT and GPT-4 have attracted great
attention given their surprising performance on a wide range of NLP tasks.
Length controlled generation of LLMs emerges as an important topic, which
enables users to fully leverage the capability of LLMs in more real-world
scenarios like generating a proper answer or essay of a desired length. In
addition, the autoregressive generation in LLMs is extremely time-consuming,
while the ability of controlling this generated length can reduce the inference
cost by limiting the length. Therefore, we propose a prompt-based length
control method to achieve high-accuracy length controlled generation. In
particular, we adopt reinforcement learning with the reward signal given by
either trainable or rule-based reward models, which further enhances the
length-control ability of LLMs by rewarding outputs that follows pre-defined
control instruction. To enable rule-based inference, we also introduce standard
prompt extractor to collect the standard control information from users' input.
Experiments show that our method significantly improves the accuracy of
prompt-based length control for summarization task on popular datasets like
CNNDM and NYT. Both the standard prompt extractor and the RL-tuned model have
show strong generalization ability to unseen control prompt templates.
- Abstract(参考訳): ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、幅広い NLP タスクにおける驚くべきパフォーマンスから大きな注目を集めている。
長さを制御したLLMの生成は重要なトピックとして現れ、ユーザーは所望の長さの適切な回答やエッセイを生成するなど、より現実的なシナリオでLLMの能力を完全に活用することができる。
さらに、LLMにおける自己回帰生成は極めて時間がかかり、この生成した長さを制御する能力は、長さを制限することで推論コストを低減することができる。
そこで本研究では,高精度な長さ制御を実現するためのプロンプトベース長さ制御手法を提案する。
特に,訓練可能あるいは規則に基づく報酬モデルが与える報酬信号を用いた強化学習を採用することで,事前定義された制御命令に従う出力を報酬することにより,llmの長さ制御能力がさらに向上する。
また,ルールベースの推論を可能にするために,ユーザの入力から標準制御情報を収集する標準プロンプト抽出器を導入する。
実験により,cnndmやnytなどの一般的なデータセットにおける要約タスクに対するプロンプトベース長制御の精度が大幅に向上した。
標準プロンプト抽出器とrlチューニングモデルの両方が、プロンプトテンプレートの制御を無視する強力な一般化能力を示している。
関連論文リスト
- PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness [41.87219806677628]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な機能を示している。
これらの進歩にもかかわらず、LLMは長さ制御の課題に直面している。
そこで本研究では,この課題に対処するための新しいアプローチとして,PhysorID PromptingとPhysorID Fine-Tuningを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:15:36Z) - Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models [14.175953642749649]
大きな言語モデルは、しばしば特定の長さの応答を生成するのに苦労する。
本稿では,長さ制約のある命令下での大規模言語モデルの命令追従能力を高めるために,ルールと呼ばれる新しいモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T17:44:58Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models [27.26285945442178]
InstructCMPは文圧縮タスクへのアプローチであり、命令によって長さ制約を考慮できる。
長さプライミングを適用することで、ゼロショット設定と微調整設定の両方において、インストラクトCMPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-16T23:00:47Z) - Prompt-Based Length Controlled Generation with Multiple Control Types [45.202705040391734]
そこで本稿では,異なる制御型で高精度な長さ制御生成を実現するためのプロンプトベース手法を提案する。
特に,ルールベース報酬モデルによって与えられる報酬信号を用いた強化学習(RL)とサンプルフィルタリングを採用する。
実験の結果,提案手法はCNNDMやNYTなどの一般的な要約データセットにおいて,プロンプトベース長制御の精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-12T01:49:54Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。