論文の概要: The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01874v1
- Date: Fri, 2 Feb 2024 20:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:38:51.675412
- Title: The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models
- Title(参考訳): RL/LLM分類木:強化学習と大規模言語モデルの相乗効果について
- Authors: Moschoula Pternea, Prerna Singh, Abir Chakraborty, Yagna Oruganti,
Mirco Milletari, Sayli Bapat, Kebei Jiang
- Abstract要約: 強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。
本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 2.5721733711031978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we review research studies that combine Reinforcement Learning
(RL) and Large Language Models (LLMs), two areas that owe their momentum to the
development of deep neural networks. We propose a novel taxonomy of three main
classes based on the way that the two model types interact with each other. The
first class, RL4LLM, includes studies where RL is leveraged to improve the
performance of LLMs on tasks related to Natural Language Processing. L4LLM is
divided into two sub-categories depending on whether RL is used to directly
fine-tune an existing LLM or to improve the prompt of the LLM. In the second
class, LLM4RL, an LLM assists the training of an RL model that performs a task
that is not inherently related to natural language. We further break down
LLM4RL based on the component of the RL training framework that the LLM assists
or replaces, namely reward shaping, goal generation, and policy function.
Finally, in the third class, RL+LLM, an LLM and an RL agent are embedded in a
common planning framework without either of them contributing to training or
fine-tuning of the other. We further branch this class to distinguish between
studies with and without natural language feedback. We use this taxonomy to
explore the motivations behind the synergy of LLMs and RL and explain the
reasons for its success, while pinpointing potential shortcomings and areas
where further research is needed, as well as alternative methodologies that
serve the same goal.
- Abstract(参考訳): 本稿では,強化学習(RL)とLarge Language Models(LLM)を組み合わせた2つの研究分野について概説する。
2つのモデルタイプが相互に相互作用する方法に基づいて, 3つの主要クラスの新しい分類法を提案する。
最初のクラスであるRL4LLMは、自然言語処理に関連するタスクにおけるLLMのパフォーマンスを改善するためにRLを活用する研究を含んでいる。
L4LLMは、既存のLLMを直接微調整するためにRLを使用するか、LLMのプロンプトを改善するために使用されるかによって、2つのサブカテゴリに分けられる。
第2のクラスであるLLM4RLでは、LLMは自然言語とは本質的に関係のないタスクを実行するRLモデルのトレーニングを支援する。
我々はさらに、LLMが補助するRLトレーニングフレームワーク、すなわち報酬形成、ゴール生成、ポリシー機能に基づいてLLM4RLを分解する。
最後に、第3のクラスであるRL+LLMでは、LLMとRLエージェントが共通の計画フレームワークに埋め込まれ、どちらもトレーニングや微調整に寄与しない。
我々は、このクラスをさらに分岐して、自然言語によるフィードバックのない研究を区別する。
我々は、この分類法を用いて、llmとrlのシナジーの背後にある動機を探求し、その成功の理由を説明すると同時に、さらなる研究が必要となる潜在的な欠点と領域、および同じ目標を達成する代替方法論を指摘する。
関連論文リスト
- From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods [18.771658054884693]
大規模言語モデル(LLM)は、マルチタスク学習、サンプル効率、高レベルのタスク計画といった側面において強化学習(RL)を強化するための有望な道として出現する。
本稿では,情報処理装置,報酬設計装置,意思決定装置,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。
論文 参考訳(メタデータ) (2024-03-30T08:28:08Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling [20.022332182475672]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。