論文の概要: Using Large Language Models to Automate and Expedite Reinforcement
Learning with Reward Machine
- arxiv url: http://arxiv.org/abs/2402.07069v1
- Date: Sun, 11 Feb 2024 00:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:43:36.025146
- Title: Using Large Language Models to Automate and Expedite Reinforcement
Learning with Reward Machine
- Title(参考訳): 大規模言語モデルを用いたReward Machineによる強化学習の自動化と高速化
- Authors: Shayan Meshkat Alsadat, Jean-Raphael Gaglione, Daniel Neider, Ufuk
Topcu, and Zhe Xu
- Abstract要約: オートマトンを用いた強化学習に高レベルの知識を符号化するために,LARL-RMアルゴリズムを提案する。
提案手法はLarge Language Models (LLM) を用いて高レベルのドメイン固有知識を得る。
最適ポリシーに収束するアルゴリズムの理論的保証を示す。
- 参考スコア(独自算出の注目度): 24.7852590886683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LARL-RM (Large language model-generated Automaton for
Reinforcement Learning with Reward Machine) algorithm in order to encode
high-level knowledge into reinforcement learning using automaton to expedite
the reinforcement learning. Our method uses Large Language Models (LLM) to
obtain high-level domain-specific knowledge using prompt engineering instead of
providing the reinforcement learning algorithm directly with the high-level
knowledge which requires an expert to encode the automaton. We use
chain-of-thought and few-shot methods for prompt engineering and demonstrate
that our method works using these approaches. Additionally, LARL-RM allows for
fully closed-loop reinforcement learning without the need for an expert to
guide and supervise the learning since LARL-RM can use the LLM directly to
generate the required high-level knowledge for the task at hand. We also show
the theoretical guarantee of our algorithm to converge to an optimal policy. We
demonstrate that LARL-RM speeds up the convergence by 30% by implementing our
method in two case studies.
- Abstract(参考訳): 本稿では,高水準知識を強化学習にエンコードし,強化学習を迅速化するlarl-rmアルゴリズムを提案する。
本手法は大規模言語モデル(llm)を用いてプロンプトエンジニアリングを用いて高レベルドメイン固有知識を得る手法であり,専門家がオートマトンをコード化する必要がある高レベル知識を直接強化学習アルゴリズムを提供するものではない。
提案手法は,思考の連鎖的手法と少数ショット法を用いて,これらの手法が有効であることを実証する。
加えて、LARL-RMはLLMを直接使用して作業に必要な高レベルな知識を手元で生成できるため、専門家が学習をガイドし、監督する必要なしに、完全にクローズドループの強化学習を可能にする。
また,アルゴリズムの最適方針への収束を理論的に保証することを示す。
LARL-RMは2つのケーススタディで本手法を実装し,収束を30%高速化することを示した。
関連論文リスト
- Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Aligning Large Language Models for Controllable Recommendations [31.255594408462322]
従来のレコメンデータモデルから派生したラベルを付加した教師付き学習タスクのコレクションを導入する。
そこで我々は,LLMの能力を高めるための強化学習に基づくアライメント手法を開発した。
提案手法は,高い精度性能を維持しつつ,レコメンダシステム内の命令に準拠するLLMの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-08T05:23:27Z) - Language-guided Skill Learning with Temporal Variational Inference [38.733622157088035]
専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T07:19:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。
まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。
第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文 参考訳(メタデータ) (2020-08-28T23:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。