Fugu-MT 論文翻訳(概要): Natural Language Reinforcement Learning

論文の概要: Natural Language Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.07157v2
Date: Wed, 14 Feb 2024 19:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 12:14:42.336164
Title: Natural Language Reinforcement Learning
Title（参考訳）: 自然言語強化学習
Authors: Xidong Feng, Ziyu Wan, Mengyue Yang, Ziyan Wang, Girish A. Koushik, Yali Du, Ying Wen, Jun Wang
Abstract要約: 本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
参考スコア（独自算出の注目度）: 25.165291680493844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) has shown remarkable abilities in learning policies for decision-making tasks. However, RL is often hindered by issues such as low sample efficiency, lack of interpretability, and sparse supervision signals. To tackle these limitations, we take inspiration from the human learning process and introduce Natural Language Reinforcement Learning (NLRL), which innovatively combines RL principles with natural language representation. Specifically, NLRL redefines RL concepts like task objectives, policy, value function, Bellman equation, and policy iteration in natural language space. We present how NLRL can be practically implemented with the latest advancements in large language models (LLMs) like GPT-4. Initial experiments over tabular MDPs demonstrate the effectiveness, efficiency, and also interpretability of the NLRL framework.
Abstract（参考訳）: 強化学習(rl)は意思決定タスクの学習方針において顕著な能力を示している。しかしながら、RLはサンプル効率の低下、解釈可能性の欠如、疎い監視信号などの問題によってしばしば妨げられる。これらの制約に対処するために、人間の学習プロセスからインスピレーションを得て、RLの原理と自然言語表現を革新的に組み合わせた自然言語強化学習(NLRL)を導入する。具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。 GPT-4のような大規模言語モデル(LLM)の最新の進歩により,NLRLを実用的に実装する方法について述べる。表状MDPに対する最初の実験は、NLRLフレームワークの有効性、効率、解釈可能性を示している。

関連論文リスト

Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs [20.026697570943497]
強化学習(RL)は伝統的にスカラー報酬信号に依存しており、現実世界のタスクでしばしば利用できる豊富な意味知識を活用する能力を制限する。対照的に、人間は言語、事前知識、常識と数値的なフィードバックを組み合わせることで効率よく学習する。本稿では,1つのフレームワークで数値的および言語的推論を統一する新しいRL手法であるPrompted Policy Search(ProPS)を紹介する。
論文参考訳（メタデータ） (2025-11-26T21:40:46Z)
SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning [88.9014727048442]
SSL4RLは、自己教師付き学習タスクをRLベースの微調整のための検証可能な報酬の源として活用する、新しいフレームワークである。提案手法では,イメージローテーションの予測やマスク付きパッチの再構築といったSSLの目的を,高密度で自動的な報酬信号に変換する。実験の結果、SSL4RLは視覚中心の推論ベンチマークと視覚言語推論ベンチマークの両方のパフォーマンスを大幅に改善することが示された。
論文参考訳（メタデータ） (2025-10-18T09:22:40Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
Natural Language Reinforcement Learning [23.310602238815285]
Reinforcement Learning (RL) はマルコフ決定過程 (MDP) を用いて決定を数学的に定式化する本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
論文参考訳（メタデータ） (2024-11-21T15:57:02Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
論文参考訳（メタデータ） (2023-11-04T11:21:38Z)
Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文参考訳（メタデータ） (2023-02-18T15:49:09Z)
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文参考訳（メタデータ） (2022-10-07T17:56:57Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)
Offline RL for Natural Language Generation with Implicit Language Q Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文参考訳（メタデータ） (2022-06-05T18:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。