Fugu-MT 論文翻訳(概要): Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping

論文の概要: Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping

arxiv url: http://arxiv.org/abs/2203.04172v1
Date: Tue, 8 Mar 2022 16:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-09 15:45:18.390846
Title: Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping
Title（参考訳）: 時間論理に基づく報酬形成による強化学習による分散制御
Authors: Ningyuan Zhang, Wenliang Liu, Calin Belta
Abstract要約: 本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するためのフレームワークを提案する。提案手法では,合成問題をゲームとして定式化し,ポリシーグラフ法を用いて各エージェントのメモリによる制御戦略を求める。我々はTLTLの量的意味論をゲームの報酬として使用し、さらに有限状態オートマトンを用いて学習プロセスのガイドと高速化を行う。
参考スコア（独自算出の注目度）: 0.2320417845168326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a computational framework for synthesis of distributed control strategies for a heterogeneous team of robots in a partially observable environment. The goal is to cooperatively satisfy specifications given as Truncated Linear Temporal Logic (TLTL) formulas. Our approach formulates the synthesis problem as a stochastic game and employs a policy graph method to find a control strategy with memory for each agent. We construct the stochastic game on the product between the team transition system and a finite state automaton (FSA) that tracks the satisfaction of the TLTL formula. We use the quantitative semantics of TLTL as the reward of the game, and further reshape it using the FSA to guide and accelerate the learning process. Simulation results demonstrate the efficacy of the proposed solution under demanding task specifications and the effectiveness of reward shaping in significantly accelerating the speed of learning.
Abstract（参考訳）: 本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するための計算フレームワークを提案する。目的は、Truncated Linear Temporal Logic (TLTL) として与えられる仕様を協調的に満たすことである。本手法は,合成問題を確率ゲームとして定式化し,各エージェントにメモリを持つ制御戦略を見つけるためのポリシーグラフ手法を用いる。チーム遷移システムと有限状態オートマトン(FSA)の積上での確率ゲームを構築し,TLTL式の満足度を追跡する。我々はTLTLの量的意味論をゲームの報酬として使用し、さらにFSAを用いて学習プロセスのガイドと高速化を行う。シミュレーションの結果,課題仕様要求時の提案手法の有効性と,学習速度を著しく向上させる報酬形成の有効性が示された。

関連論文リスト

Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-02T10:44:51Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Dependency-Aware CAV Task Scheduling via Diffusion-Based Reinforcement Learning [12.504232513881828]
動的無人航空機支援型コネクテッド自動運転車(CAV)のための新しい依存性を考慮したタスクスケジューリング手法を提案する。平均タスク完了時間を最小化することを目的として,共同スケジューリング優先度とサブタスク割り当て最適化問題を定式化する。本稿では,Synthetic DDQNをベースとしたSubtasks Schedulingという拡散型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-27T11:07:31Z)
Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-23T12:53:51Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-09T17:09:51Z)
Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文参考訳（メタデータ） (2021-09-16T04:48:13Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。 2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文参考訳（メタデータ） (2021-03-26T13:58:23Z)
Learning Optimal Strategies for Temporal Tasks in Stochastic Games [23.012106429532633]
本稿では,モデルフリー強化学習(RL)アプローチを導入し,与えられた仕様からコントローラを導出する。我々は,最悪の環境行動に対する仕様を満たす確率を最大化する最適制御戦略を学習する。
論文参考訳（メタデータ） (2021-02-08T16:10:50Z)
Reinforcement Learning Based Temporal Logic Control with Maximum Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。 RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文参考訳（メタデータ） (2020-10-14T03:49:16Z)
Continuous Motion Planning with Temporal Logic Specifications using Deep Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2020-04-02T17:58:03Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。