論文の概要: Natural Language Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.14251v1
- Date: Thu, 21 Nov 2024 15:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:47.742723
- Title: Natural Language Reinforcement Learning
- Title(参考訳): 自然言語強化学習
- Authors: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang,
- Abstract要約: Reinforcement Learning (RL) はマルコフ決定過程 (MDP) を用いて決定を数学的に定式化する
本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
- 参考スコア(独自算出の注目度): 23.310602238815285
- License:
- Abstract: Reinforcement Learning (RL) mathematically formulates decision-making with Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable breakthroughs across various domains, including games, robotics, and language models. This paper seeks a new possibility, Natural Language Reinforcement Learning (NLRL), by extending traditional MDP to natural language-based representation space. Specifically, NLRL innovatively redefines RL principles, including task objectives, policy, value function, Bellman equation, and policy iteration, into their language counterparts. With recent advancements in large language models (LLMs), NLRL can be practically implemented to achieve RL-like policy and value improvement by either pure prompting or gradient-based training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games demonstrate the effectiveness, efficiency, and interpretability of the NLRL framework among diverse use cases. Our code will be released at https://github.com/waterhorse1/Natural-language-RL.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、マルコフ決定プロセス (MDP) を用いて決定を数学的に定式化する。
MDPでは、ゲーム、ロボティクス、言語モデルなど、さまざまな領域で驚くべきブレークスルーを達成した。
本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
具体的には、NLRLは、タスク目的、ポリシー、値関数、ベルマン方程式、ポリシー反復を含むRLの原則を言語に再定義する。
大規模言語モデル(LLM)の最近の進歩により、NLRLは純粋にプロンプトや勾配に基づくトレーニングによって、RLライクなポリシーと価値改善を実現するために実践的に実装できる。
Maze、Breakthrough、Tic-Tac-Toeのゲームに対する実験は、さまざまなユースケースにおいてNLRLフレームワークの有効性、効率、解釈可能性を示している。
私たちのコードはhttps://github.com/waterhorse1/Natural-lang-RLでリリースされます。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。
具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文 参考訳(メタデータ) (2024-02-11T11:03:04Z) - The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models [2.5721733711031978]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。
本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:01:15Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。