論文の概要: Prompt-Based Length Controlled Generation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.12030v1
- Date: Wed, 23 Aug 2023 09:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:46:40.754809
- Title: Prompt-Based Length Controlled Generation with Reinforcement Learning
- Title(参考訳): 強化学習によるプロンプトベース長制御生成
- Authors: Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本稿では,この長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.49553921757085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) like ChatGPT and GPT-4 have attracted
great attention given their surprising improvement and performance. Length
controlled generation of LLMs emerges as an important topic, which also enables
users to fully leverage the capability of LLMs in more real-world scenarios
like generating a proper answer or essay of a desired length. In addition, the
autoregressive generation in LLMs is extremely time-consuming, while the
ability of controlling this generated length can arbitrarily reduce the
inference cost by limiting the length, and thus satisfy different needs.
Therefore, we aim to propose a prompt-based length control method to achieve
this length controlled generation, which can also be widely applied in
GPT-style LLMs. In particular, we adopt reinforcement learning with the reward
signal given by either trainable or rule-based reward model, which further
affects the generation of LLMs via rewarding a pre-defined target length.
Experiments show that our method significantly improves the accuracy of
prompt-based length control for summarization task on popular datasets like
CNNDM and NYT. We believe this length-controllable ability can provide more
potentials towards the era of LLMs.
- Abstract(参考訳): 近年,ChatGPT や GPT-4 のような大規模言語モデル (LLM) が注目されている。
長さを制御したLLMの生成は重要なトピックとして現れ、ユーザーは所望の長さの適切な回答やエッセイを生成するなど、より現実的なシナリオでLLMの能力を完全に活用することができる。
さらに、LLMにおける自己回帰生成は非常に時間がかかり、この生成した長さを制御する能力は、長さを制限して推論コストを任意に低減し、異なるニーズを満たすことができる。
そこで本研究では,GPTスタイルのLLMにも広く適用可能な,この長さ制御生成を実現するためのプロンプトベースの長さ制御手法を提案する。
特に,訓練可能あるいは規則に基づく報酬モデルが与える報酬信号を用いた強化学習を採用することで,事前定義された目標長の報酬によるllm生成にさらに影響を与える。
実験により,cnndmやnytなどの一般的なデータセットにおける要約タスクに対するプロンプトベース長制御の精度が大幅に向上した。
我々は,LLMの時代に向けて,この長さ制御能力がより多くの可能性をもたらすと信じている。
関連論文リスト
- LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language
Models [72.77653698874678]
本稿では,大規模言語モデル(LLM)を自動回帰時系列予測器として活用するためにAutoTimesを提案する。
提案手法は, LLM, 追加テキスト, 時系列を命令として利用することにより, 顕著な手法の一般化を実現し, 性能の向上を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Integrating Summarization and Retrieval for Enhanced Personalization via
Large Language Models [11.950478880423733]
パーソナライゼーションは自然言語処理(NLP)システムにおけるユーザエクスペリエンスにおいて重要な要素である。
LLM(Large Language Models)の出現によって、重要な疑問は、これらのモデルを使ってユーザエクスペリエンスをよりパーソナライズする方法である。
LLMが生成するタスク対応ユーザ要約を用いた,新しい要約型パーソナライゼーションを提案する。
論文 参考訳(メタデータ) (2023-10-30T23:40:41Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。