論文の概要: Learning to Generate Better Than Your LLM
- arxiv url: http://arxiv.org/abs/2306.11816v2
- Date: Mon, 13 Nov 2023 18:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:28:21.996515
- Title: Learning to Generate Better Than Your LLM
- Title(参考訳): LLMよりも優れた生成を学ぶ
- Authors: Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra
Misra, Wen Sun
- Abstract要約: 強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。
我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。
我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 16.74454360961681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for
fine-tuning Large Language Models (LLMs) for text generation. In particular,
recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with
users after finetuning with RL. Capitalizing on key properties of text
generation, we seek to investigate RL algorithms beyond general purpose
algorithms like Proximal Policy Optimization (PPO). In particular, we extend RL
algorithms to allow them to interact with a dynamic black-box guide LLM and
propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM
fine-tuning. We provide two ways for the guide LLM to interact with the LLM to
be optimized for maximizing rewards. The guide LLM can generate text which
serves as additional starting states for the RL optimization procedure. The
guide LLM can also be used to complete the partial sentences generated by the
LLM that is being optimized, treating the guide LLM as an expert to imitate and
surpass eventually. We experiment on the IMDB positive sentiment, CommonGen,
and TL;DR summarization tasks. We show that our RL algorithms achieve higher
performance than supervised learning (SL) and the RL baseline PPO,
demonstrating the benefit of interaction with the guide LLM. On both CommonGen
and TL;DR, we not only outperform our SL baselines but also improve upon PPO
across a variety of metrics beyond the one we optimized for. Our code can be
found at https://github.com/Cornell-RL/tril.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、テキスト生成のための微調整大型言語モデル(LLM)の強力なパラダイムとして登場した。
特に、ChatGPT や GPT-4 のような最近の LLM は、RL を微調整した後に、ユーザと流動的な会話を行うことができる。
テキスト生成の鍵となる特性を活かして,PPO(Proximal Policy Optimization)のような汎用アルゴリズム以外のRLアルゴリズムについて検討する。
特に、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張し、LLM微細チューニングのためのRLアルゴリズムのスイートであるRLGFを提案する。
我々は、LLMがLLMと相互作用し、報酬を最大化する2つの方法を提供する。
ガイドllmはrl最適化手順で追加の開始状態となるテキストを生成することができる。
ガイドLLMは、最適化中のLSMが生成した部分文の完了にも使用することができ、ガイドLLMを専門家として扱い、最終的には模倣し、超える。
我々は,imdb positive sentiment, commongen, tl;dr 要約タスクを用いて実験を行った。
我々のRLアルゴリズムは、教師付き学習(SL)とRLベースラインPPOよりも高い性能を示し、ガイドLLMとの相互作用の利点を示す。
CommonGen と TL;DR では、SL ベースラインを上回るだけでなく、最適化された指標を超えて、さまざまな指標で PPO を改善しています。
私たちのコードはhttps://github.com/Cornell-RL/tril.orgにある。
関連論文リスト
- AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか?
我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。
提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文 参考訳(メタデータ) (2024-06-26T01:16:12Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs [45.44796295841526]
大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。
いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを実現しています。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
論文 参考訳(メタデータ) (2024-03-08T16:37:36Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。