Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning with Temporal Logic Specifications

論文の概要: Multi-Agent Reinforcement Learning with Temporal Logic Specifications

arxiv url: http://arxiv.org/abs/2102.00582v1
Date: Mon, 1 Feb 2021 01:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 16:02:48.833149
Title: Multi-Agent Reinforcement Learning with Temporal Logic Specifications
Title（参考訳）: 時間論理仕様を用いたマルチエージェント強化学習
Authors: Lewis Hammond and Alessandro Abate and Julian Gutierrez and Michael Wooldridge
Abstract要約: 本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。主アルゴリズムの正確性と収束性を保証する。
参考スコア（独自算出の注目度）: 65.79056365594654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of learning to satisfy temporal logic specifications with a group of agents in an unknown environment, which may exhibit probabilistic behaviour. From a learning perspective these specifications provide a rich formal language with which to capture tasks or objectives, while from a logic and automated verification perspective the introduction of learning capabilities allows for practical applications in large, stochastic, unknown environments. The existing work in this area is, however, limited. Of the frameworks that consider full linear temporal logic or have correctness guarantees, all methods thus far consider only the case of a single temporal logic specification and a single agent. In order to overcome this limitation, we develop the first multi-agent reinforcement learning technique for temporal logic specifications, which is also novel in its ability to handle multiple specifications. We provide correctness and convergence guarantees for our main algorithm - ALMANAC (Automaton/Logic Multi-Agent Natural Actor-Critic) - even when using function approximation. Alongside our theoretical results, we further demonstrate the applicability of our technique via a set of preliminary experiments.
Abstract（参考訳）: 本稿では,未知の環境におけるエージェント群による時間論理仕様を満たす学習の問題について検討し,確率的行動を示す可能性がある。学習の観点からは、これらの仕様はタスクや目的をキャプチャするリッチな形式言語を提供する一方で、ロジックや自動検証の観点からは、学習機能の導入によって、大規模で統計的で未知の環境での実用的な応用が可能になる。しかし、この領域の既存の仕事は限られています。完全な線形時間論理や正当性を保証するフレームワークのうち、これまでのすべてのメソッドでは、単一の時間論理仕様と単一のエージェントのみを考慮する。この制限を克服するために、時間論理仕様のための最初のマルチエージェント強化学習技術を開発しました。関数近似を用いても,主アルゴリズムであるALMANAC(Automaton/Logic Multi-Agent Natural Actor-Critic)の正確性と収束性を保証する。理論的結果とともに,予備実験のセットを通じて,本手法の適用性をさらに実証する。

関連論文リスト

Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文参考訳（メタデータ） (2026-02-15T23:22:50Z)
Semantically Labelled Automata for Multi-Task Reinforcement Learning with LTL Instructions [61.479946958462754]
エージェントが単一のユニバーサルポリシーを学習する環境であるマルチタスク強化学習(RL)について検討する。本稿では,新世代の意味翻訳を利用したタスク埋め込み手法を提案する。
論文参考訳（メタデータ） (2026-02-06T14:46:27Z)
An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文参考訳（メタデータ） (2025-12-22T15:03:57Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Inductive Learning of Robot Task Knowledge from Raw Data and Online Expert Feedback [3.10979520014442]
ロボットの自律性の向上は、特に人間とロボットの相互作用シナリオにおいて、信頼と社会的受容の課題を引き起こす。これはロボット認知能力の解釈可能な実装を必要としており、おそらくはタスク仕様の定義のための論理としての形式的手法に基づいている。本稿では,タスク仕様を抽出するノイズの多い例から,帰納的論理プログラミングに基づくオフラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-13T17:25:46Z)
Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文参考訳（メタデータ） (2024-10-07T13:26:36Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文参考訳（メタデータ） (2023-06-04T18:14:18Z)
Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes [5.471640959988549]
まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。累積報酬を最大化するポリシを合成するための構造化手法を提供する。次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
論文参考訳（メタデータ） (2023-05-24T05:15:36Z)
Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文参考訳（メタデータ） (2023-03-24T16:19:15Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning [13.049516752695613]
本稿では,エージェントがその環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。エージェントは論理的にも時間的にも柔軟に構成でき、任意の正規言語で時間論理の仕様を確実に達成することができる。これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
論文参考訳（メタデータ） (2022-05-25T07:05:24Z)
Inverse Reinforcement Learning of Autonomous Behaviors Encoded as Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文参考訳（メタデータ） (2021-03-10T06:42:10Z)
A General Machine Learning Framework for Survival Analysis [0.8029049649310213]
生存分析のための機械学習手法の多くは、正しい検閲されたデータと比例的ハザード仮定による標準設定のみを考慮する。我々は,データ拡張戦略を用いて,複雑な生存タスクを標準的なポアソン回帰タスクに還元する,時間対イベント分析のための非常に一般的な機械学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-27T20:57:18Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。