Fugu-MT 論文翻訳(概要): Learning to Generate Better Than Your LLM

論文の概要: Learning to Generate Better Than Your LLM

arxiv url: http://arxiv.org/abs/2306.11816v2
Date: Mon, 13 Nov 2023 18:51:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 21:28:21.996515
Title: Learning to Generate Better Than Your LLM
Title（参考訳）: LLMよりも優れた生成を学ぶ
Authors: Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun
Abstract要約: 強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
参考スコア（独自算出の注目度）: 16.74454360961681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large Language Models (LLMs) for text generation. In particular, recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with users after finetuning with RL. Capitalizing on key properties of text generation, we seek to investigate RL algorithms beyond general purpose algorithms like Proximal Policy Optimization (PPO). In particular, we extend RL algorithms to allow them to interact with a dynamic black-box guide LLM and propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM fine-tuning. We provide two ways for the guide LLM to interact with the LLM to be optimized for maximizing rewards. The guide LLM can generate text which serves as additional starting states for the RL optimization procedure. The guide LLM can also be used to complete the partial sentences generated by the LLM that is being optimized, treating the guide LLM as an expert to imitate and surpass eventually. We experiment on the IMDB positive sentiment, CommonGen, and TL;DR summarization tasks. We show that our RL algorithms achieve higher performance than supervised learning (SL) and the RL baseline PPO, demonstrating the benefit of interaction with the guide LLM. On both CommonGen and TL;DR, we not only outperform our SL baselines but also improve upon PPO across a variety of metrics beyond the one we optimized for. Our code can be found at https://github.com/Cornell-RL/tril.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、テキスト生成のための微調整大型言語モデル(LLM)の強力なパラダイムとして登場した。特に、ChatGPT や GPT-4 のような最近の LLM は、RL を微調整した後に、ユーザと流動的な会話を行うことができる。テキスト生成の鍵となる特性を活かして,PPO(Proximal Policy Optimization)のような汎用アルゴリズム以外のRLアルゴリズムについて検討する。特に、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張し、LLM微細チューニングのためのRLアルゴリズムのスイートであるRLGFを提案する。我々は、LLMがLLMと相互作用し、報酬を最大化する2つの方法を提供する。ガイドllmはrl最適化手順で追加の開始状態となるテキストを生成することができる。ガイドLLMは、最適化中のLSMが生成した部分文の完了にも使用することができ、ガイドLLMを専門家として扱い、最終的には模倣し、超える。我々は,imdb positive sentiment, commongen, tl;dr 要約タスクを用いて実験を行った。我々のRLアルゴリズムは、教師付き学習(SL)とRLベースラインPPOよりも高い性能を示し、ガイドLLMとの相互作用の利点を示す。 CommonGen と TL;DR では、SL ベースラインを上回るだけでなく、最適化された指標を超えて、さまざまな指標で PPO を改善しています。私たちのコードはhttps://github.com/Cornell-RL/tril.orgにある。

関連論文リスト

DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2025-05-22T15:49:38Z)
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM [14.139788456751706]
本稿では,RL(Reinforcement Learning)アルゴリズムを温めるために,高品質なデータ収集におけるLLM(Large Language Model)の利用について検討する。我々のアルゴリズムであるLOROは、最適ポリシーに収束し、高いサンプル効率を持つ。 CartPole や Pendulum など,OpenAI の複数の環境において,LORO がベースラインアルゴリズムより優れていることを実証的に示す。
論文参考訳（メタデータ） (2025-05-16T05:03:39Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか? 我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文参考訳（メタデータ） (2024-06-26T01:16:12Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs [45.44796295841526]
大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを実現しています。 LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
論文参考訳（メタデータ） (2024-03-08T16:37:36Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。