論文の概要: Prompt-Based Length Controlled Generation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.12030v1
- Date: Wed, 23 Aug 2023 09:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:46:40.754809
- Title: Prompt-Based Length Controlled Generation with Reinforcement Learning
- Title(参考訳): 強化学習によるプロンプトベース長制御生成
- Authors: Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本稿では,この長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.49553921757085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) like ChatGPT and GPT-4 have attracted
great attention given their surprising improvement and performance. Length
controlled generation of LLMs emerges as an important topic, which also enables
users to fully leverage the capability of LLMs in more real-world scenarios
like generating a proper answer or essay of a desired length. In addition, the
autoregressive generation in LLMs is extremely time-consuming, while the
ability of controlling this generated length can arbitrarily reduce the
inference cost by limiting the length, and thus satisfy different needs.
Therefore, we aim to propose a prompt-based length control method to achieve
this length controlled generation, which can also be widely applied in
GPT-style LLMs. In particular, we adopt reinforcement learning with the reward
signal given by either trainable or rule-based reward model, which further
affects the generation of LLMs via rewarding a pre-defined target length.
Experiments show that our method significantly improves the accuracy of
prompt-based length control for summarization task on popular datasets like
CNNDM and NYT. We believe this length-controllable ability can provide more
potentials towards the era of LLMs.
- Abstract(参考訳): 近年,ChatGPT や GPT-4 のような大規模言語モデル (LLM) が注目されている。
長さを制御したLLMの生成は重要なトピックとして現れ、ユーザーは所望の長さの適切な回答やエッセイを生成するなど、より現実的なシナリオでLLMの能力を完全に活用することができる。
さらに、LLMにおける自己回帰生成は非常に時間がかかり、この生成した長さを制御する能力は、長さを制限して推論コストを任意に低減し、異なるニーズを満たすことができる。
そこで本研究では,GPTスタイルのLLMにも広く適用可能な,この長さ制御生成を実現するためのプロンプトベースの長さ制御手法を提案する。
特に,訓練可能あるいは規則に基づく報酬モデルが与える報酬信号を用いた強化学習を採用することで,事前定義された目標長の報酬によるllm生成にさらに影響を与える。
実験により,cnndmやnytなどの一般的なデータセットにおける要約タスクに対するプロンプトベース長制御の精度が大幅に向上した。
我々は,LLMの時代に向けて,この長さ制御能力がより多くの可能性をもたらすと信じている。
関連論文リスト
- PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness [41.87219806677628]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な機能を示している。
これらの進歩にもかかわらず、LLMは長さ制御の課題に直面している。
そこで本研究では,この課題に対処するための新しいアプローチとして,PhysorID PromptingとPhysorID Fine-Tuningを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:15:36Z) - Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models [14.175953642749649]
大きな言語モデルは、しばしば特定の長さの応答を生成するのに苦労する。
本稿では,長さ制約のある命令下での大規模言語モデルの命令追従能力を高めるために,ルールと呼ばれる新しいモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T17:44:58Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models [27.26285945442178]
InstructCMPは文圧縮タスクへのアプローチであり、命令によって長さ制約を考慮できる。
長さプライミングを適用することで、ゼロショット設定と微調整設定の両方において、インストラクトCMPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-16T23:00:47Z) - Prompt-Based Length Controlled Generation with Multiple Control Types [45.202705040391734]
そこで本稿では,異なる制御型で高精度な長さ制御生成を実現するためのプロンプトベース手法を提案する。
特に,ルールベース報酬モデルによって与えられる報酬信号を用いた強化学習(RL)とサンプルフィルタリングを採用する。
実験の結果,提案手法はCNNDMやNYTなどの一般的な要約データセットにおいて,プロンプトベース長制御の精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-12T01:49:54Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。