Fugu-MT 論文翻訳(概要): LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition

論文の概要: LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition

arxiv url: http://arxiv.org/abs/2410.01929v1
Date: Wed, 2 Oct 2024 18:22:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 09:54:27.599936
Title: LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition
Title（参考訳）: ランドマークに基づくタスク分割によるLLM強化記号強化学習
Authors: Alireza Kheirandish, Duo Xu, Faramarz Fekri,
Abstract要約: 強化学習(RL)の基本的な課題の1つは、複雑なタスクを受け取り、RLエージェントがより簡単に学習できるサブタスクに分解できることである。本稿では,複雑なタスクを解くために,与えられた正の軌道と負の軌道を用いてサブタスクを識別する作業について報告する。
参考スコア（独自算出の注目度）: 11.781353582190546
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: One of the fundamental challenges in reinforcement learning (RL) is to take a complex task and be able to decompose it to subtasks that are simpler for the RL agent to learn. In this paper, we report on our work that would identify subtasks by using some given positive and negative trajectories for solving the complex task. We assume that the states are represented by first-order predicate logic using which we devise a novel algorithm to identify the subtasks. Then we employ a Large Language Model (LLM) to generate first-order logic rule templates for achieving each subtask. Such rules were then further fined tuned to a rule-based policy via an Inductive Logic Programming (ILP)-based RL agent. Through experiments, we verify the accuracy of our algorithm in detecting subtasks which successfully detect all of the subtasks correctly. We also investigated the quality of the common-sense rules produced by the language model to achieve the subtasks. Our experiments show that our LLM-guided rule template generation can produce rules that are necessary for solving a subtask, which leads to solving complex tasks with fewer assumptions about predefined first-order logic predicates of the environment.
Abstract（参考訳）: 強化学習(RL)の基本的な課題の1つは、複雑なタスクを受け取り、RLエージェントがより簡単に学習できるサブタスクに分解できることである。本稿では,複雑なタスクを解くために,与えられた正の軌道と負の軌道を用いてサブタスクを識別する作業について報告する。状態は1次述語論理で表され、サブタスクを識別するための新しいアルゴリズムを考案したと仮定する。次に、Large Language Model (LLM)を用いて、各サブタスクを達成するための一階述語論理ルールテンプレートを生成する。このようなルールはさらにILP(Inductive Logic Programming)ベースのRLエージェントを通じてルールベースのポリシーに調整された。実験により,全てのサブタスクを正確に検出するサブタスク検出におけるアルゴリズムの精度を検証する。また,サブタスクを実現するために,言語モデルが生成する常識ルールの質についても検討した。我々のLLM誘導型ルールテンプレート生成はサブタスクの解決に必要なルールを生成できることを示す。

関連論文リスト

Fast-Slow-Thinking: Complex Task Solving with Large Language Models [49.98959729052245]
本稿では,FST(Fast-Slow-Thinking')と呼ばれるタスク分解手法を提案する。 FTでは、LLMは元のタスクの制約を取り除くよう促されるため、汎用的で簡潔なタスクに単純化される。 STでは、FTで取り除かれた制約をリコールするため、LLMはFTで生成された回答を改善し、元のタスクの要求を満たす。
論文参考訳（メタデータ） (2025-04-11T16:57:36Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文参考訳（メタデータ） (2024-11-04T00:01:34Z)
Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文参考訳（メタデータ） (2024-10-28T23:47:43Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning [1.8399318639816038]
我々は,レキシコグラフィーの優先度でサブタスクソリューションを学習し,適応するための優先度付きソフトQ分解(PSQD)を提案する。 PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。我々は,低次元と高次元の両方のロボット制御タスクに対して,学習,再利用,適応性を成功させ,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-10-03T18:36:21Z)
RoCar: A Relationship Network-based Evaluation Method for Large Language Models [20.954826722195847]
大規模言語モデル(LLM)の機能をどのように合理的に評価するかは、まだ解決すべき課題である。本稿では,定義された基本スキーマを用いてタスクグラフをランダムに構築するRoCar法を提案する。テスト対象のLSMが直接評価タスクを学習していないことを保証し,評価手法の公平性を保証することが可能である。
論文参考訳（メタデータ） (2023-07-29T14:47:07Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文参考訳（メタデータ） (2023-03-30T16:01:52Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。