論文の概要: Near-Optimal Reactive Synthesis Incorporating Runtime Information
- arxiv url: http://arxiv.org/abs/2007.16107v1
- Date: Fri, 31 Jul 2020 14:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:57:08.533475
- Title: Near-Optimal Reactive Synthesis Incorporating Runtime Information
- Title(参考訳): 実行時情報を組み込んだ準最適反応合成
- Authors: Suda Bharadwaj, Abraham P. Vinod, Rayna Dimitrova, Ufuk Topcu
- Abstract要約: 我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。
実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 28.25296947005914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of optimal reactive synthesis - compute a strategy
that satisfies a mission specification in a dynamic environment, and optimizes
a performance metric. We incorporate task-critical information, that is only
available at runtime, into the strategy synthesis in order to improve
performance. Existing approaches to utilising such time-varying information
require online re-synthesis, which is not computationally feasible in real-time
applications. In this paper, we pre-synthesize a set of strategies
corresponding to candidate instantiations (pre-specified representative
information scenarios). We then propose a novel switching mechanism to
dynamically switch between the strategies at runtime while guaranteeing all
safety and liveness goals are met. We also characterize bounds on the
performance suboptimality. We demonstrate our approach on two examples -
robotic motion planning where the likelihood of the position of the robot's
goal is updated in real-time, and an air traffic management problem for urban
air mobility.
- Abstract(参考訳): 我々は,動的環境におけるミッション仕様を満たす戦略を計算し,性能指標を最適化する,最適反応合成の問題を考える。
実行時にのみ利用可能なタスククリティカルな情報を戦略合成に組み込んで,パフォーマンスを向上させる。
このような時間変化情報を利用する既存のアプローチは、リアルタイムアプリケーションでは計算不可能なオンライン再合成を必要とする。
本稿では,候補のインスタンス化に対応する戦略のセット(事前特定代表情報シナリオ)を事前に合成する。
そこで我々は,すべての安全性と生存目標を満たしながら,実行時の戦略を動的に切り替える新しいスイッチング機構を提案する。
また、パフォーマンスサブオプティリティの境界を特徴付ける。
そこで本研究では,ロボットの目標位置の可能性をリアルタイムで更新するロボット運動計画手法と,都市空力移動のための航空交通管理問題について紹介する。
関連論文リスト
- Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [34.25379651790627]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Dynamic Unicast-Multicast Scheduling for Age-Optimal Information
Dissemination in Vehicular Networks [10.934800950965336]
車両ネットワークでは、道路側ユニット(RSU)が車両に物理プロセスのセットに関するタイムリーな更新を提供する。
決定をユニキャスト、マルチキャスト、ブロードキャスト、あるいは車両へのアップデートの送信に最適化するためのフレームワークが提案されている。
論文 参考訳(メタデータ) (2022-09-19T16:04:49Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Offline Contextual Bandits for Wireless Network Optimization [107.24086150482843]
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。
私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
論文 参考訳(メタデータ) (2021-11-11T11:31:20Z) - Efficient Strategy Synthesis for MDPs with Resource Constraints [16.774128823546416]
我々は,消費マルコフ決定過程と呼ばれる形式に対する戦略合成を考える。
提示されたアルゴリズムは、モデルの表現に関して時間的に機能する。
論文 参考訳(メタデータ) (2021-05-05T14:59:30Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - One-shot Policy Elicitation via Semantic Reward Manipulation [2.668480521943575]
本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-01-06T04:11:22Z) - Learning Task-Agnostic Action Spaces for Movement Optimization [18.37812596641983]
そこで本研究では,物理ベースのアニメーションキャラクターのダイナミクスを探索する新しい手法を提案する。
目標状態としてアクションをパラメータ化し、目標に向かってエージェントの状態を駆動する短水平目標条件の低レベル制御ポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-22T06:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。