Fugu-MT 論文翻訳(概要): Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation

論文の概要: Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation

arxiv url: http://arxiv.org/abs/2412.20338v1
Date: Sun, 29 Dec 2024 03:34:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.568826
Title: Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation
Title（参考訳）: 解釈可能な時間論理操作のための強化学習におけるハイブリッド政策の展開
Authors: Hao Zhang, Hao Wang, Xiucai Huang, Wenrui Chen, Zhen Kan,
Abstract要約: 強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
参考スコア（独自算出の注目度）: 12.243491328213217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) based methods have been increasingly explored for robot learning. However, RL based methods often suffer from low sampling efficiency in the exploration phase, especially for long-horizon manipulation tasks, and generally neglect the semantic information from the task level, resulted in a delayed convergence or even tasks failure. To tackle these challenges, we propose a Temporal-Logic-guided Hybrid policy framework (HyTL) which leverages three-level decision layers to improve the agent's performance. Specifically, the task specifications are encoded via linear temporal logic (LTL) to improve performance and offer interpretability. And a waypoints planning module is designed with the feedback from the LTL-encoded task level as a high-level policy to improve the exploration efficiency. The middle-level policy selects which behavior primitives to execute, and the low-level policy specifies the corresponding parameters to interact with the environment. We evaluate HyTL on four challenging manipulation tasks, which demonstrate its effectiveness and interpretability. Our project is available at: https://sites.google.com/view/hytl-0257/.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。しかし、RLに基づく手法は、特に長距離操作タスクにおいて、探索段階でサンプリング効率の低下に悩まされることが多く、一般にタスクレベルの意味情報を無視することで、遅延収束やタスクの失敗さえも生じる。これらの課題に対処するため,エージェントの性能向上のために3段階決定層を活用した時間論理誘導型ハイブリッド・ポリシー・フレームワーク(HyTL)を提案する。具体的には、タスク仕様は線形時間論理(LTL)を介して符号化され、性能を改善し、解釈可能性を提供する。また,LTL符号化タスクレベルからのフィードバックを,探索効率を向上させるための高レベルポリシーとして,ウェイポイント計画モジュールを設計する。中レベルポリシーはどの行動プリミティブを実行するかを選択し、低レベルポリシーは環境と対話する対応するパラメータを指定する。我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。私たちのプロジェクトは、https://sites.google.com/view/hytl-0257/で利用可能です。

関連論文リスト

Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-02T10:44:51Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。既存のアプローチにはいくつかの欠点がある。これらの問題に対処するための新しい学習手法を提案する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications [11.010530034121224]
本稿では,学習速度を大幅に向上させる新しいQ-ラーニングアルゴリズムを提案する。サンプル効率の向上は、ミッションが成功に寄与する可能性のある方向への探索を優先する、ミッション駆動の探査戦略に由来する。
論文参考訳（メタデータ） (2023-11-28T18:59:58Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)
Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文参考訳（メタデータ） (2022-05-28T17:59:00Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-09T17:09:51Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。