Fugu-MT 論文翻訳(概要): Near-Optimal Reactive Synthesis Incorporating Runtime Information

論文の概要: Near-Optimal Reactive Synthesis Incorporating Runtime Information

arxiv url: http://arxiv.org/abs/2007.16107v1
Date: Fri, 31 Jul 2020 14:41:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 06:57:08.533475
Title: Near-Optimal Reactive Synthesis Incorporating Runtime Information
Title（参考訳）: 実行時情報を組み込んだ準最適反応合成
Authors: Suda Bharadwaj, Abraham P. Vinod, Rayna Dimitrova, Ufuk Topcu
Abstract要約: 我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
参考スコア（独自算出の注目度）: 28.25296947005914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of optimal reactive synthesis - compute a strategy that satisfies a mission specification in a dynamic environment, and optimizes a performance metric. We incorporate task-critical information, that is only available at runtime, into the strategy synthesis in order to improve performance. Existing approaches to utilising such time-varying information require online re-synthesis, which is not computationally feasible in real-time applications. In this paper, we pre-synthesize a set of strategies corresponding to candidate instantiations (pre-specified representative information scenarios). We then propose a novel switching mechanism to dynamically switch between the strategies at runtime while guaranteeing all safety and liveness goals are met. We also characterize bounds on the performance suboptimality. We demonstrate our approach on two examples - robotic motion planning where the likelihood of the position of the robot's goal is updated in real-time, and an air traffic management problem for urban air mobility.
Abstract（参考訳）: 我々は,動的環境におけるミッション仕様を満たす戦略を計算し,性能指標を最適化する,最適反応合成の問題を考える。実行時にのみ利用可能なタスククリティカルな情報を戦略合成に組み込んで,パフォーマンスを向上させる。このような時間変化情報を利用する既存のアプローチは、リアルタイムアプリケーションでは計算不可能なオンライン再合成を必要とする。本稿では,候補のインスタンス化に対応する戦略のセット(事前特定代表情報シナリオ)を事前に合成する。そこで我々は,すべての安全性と生存目標を満たしながら,実行時の戦略を動的に切り替える新しいスイッチング機構を提案する。また、パフォーマンスサブオプティリティの境界を特徴付ける。そこで本研究では,ロボットの目標位置の可能性をリアルタイムで更新するロボット運動計画手法と,都市空力移動のための航空交通管理問題について紹介する。

関連論文リスト

Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。 textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文参考訳（メタデータ） (2025-12-17T12:25:05Z)
Policy Gradient Algorithms for Age-of-Information Cost Minimization [2.095755723692814]
本研究では,サイバー物理システムにおける情報更新プロセスを最適化するアルゴリズムを2つ導入する。アルゴリズムは、受信機におけるエイジ・オブ・インフォメーションとデータ転送コストを統合する平均時間コストを最小化する。
論文参考訳（メタデータ） (2025-12-12T19:12:36Z)
Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文参考訳（メタデータ） (2025-05-26T06:40:11Z)
Latent Adaptive Planner for Dynamic Manipulation [44.885020943751464]
Latent Adaptive Planner (LAP) は動的非包括的操作タスクのための新しいアプローチである。 LAPは、人間のデモビデオから効果的に学んだ潜在空間推論として計画を定式化している。
論文参考訳（メタデータ） (2025-05-06T00:09:09Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文参考訳（メタデータ） (2024-08-11T14:57:57Z)
Communication- and Computation-Efficient Distributed Decision-Making in Multi-Robot Networks [2.8936428431504164]
複数のロボット間のスケーラブルでほぼ最適な関節運動計画を可能にする分散協調パラダイムを提供する。我々のアルゴリズムは、競合する準最適アルゴリズムよりも2桁高速である。最大45台のロボットによる監視タスクのシミュレーションでは、1Hzのオーダーでリアルタイム計画が可能で、カバー性能も優れている。
論文参考訳（メタデータ） (2024-07-15T01:25:39Z)
IncidentResponseGPT: Generating Traffic Incident Response Plans with Generative Artificial Intelligence [2.1711205684359247]
IncidentResponseGPT(インシデントレスポンスGPT)は、AI(Generative AI)をトラフィックインシデント応答に適用する新しいシステムである。交通管理当局の意思決定を迅速化するため、特定地域に適応したインシデント対応計画を作成する。
論文参考訳（メタデータ） (2024-04-29T09:45:46Z)
Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response [10.294618771570985]
デュアルプロセス理論(DPT)にインスパイアされた注意に基づく認知アーキテクチャを提案する。このフレームワークは、高速だが(人間のような)応答と、遅いが最適化されたマシンインテリジェンスの計画能力を統合する。
論文参考訳（メタデータ） (2024-04-15T15:47:08Z)
Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文参考訳（メタデータ） (2023-06-18T15:50:57Z)
Optimal task and motion planning and execution for human-robot multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-27T01:50:45Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Offline Contextual Bandits for Wireless Network Optimization [107.24086150482843]
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
論文参考訳（メタデータ） (2021-11-11T11:31:20Z)
Efficient Strategy Synthesis for MDPs with Resource Constraints [16.774128823546416]
我々は,消費マルコフ決定過程と呼ばれる形式に対する戦略合成を考える。提示されたアルゴリズムは、モデルの表現に関して時間的に機能する。
論文参考訳（メタデータ） (2021-05-05T14:59:30Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
One-shot Policy Elicitation via Semantic Reward Manipulation [2.668480521943575]
本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-01-06T04:11:22Z)
Learning Task-Agnostic Action Spaces for Movement Optimization [18.37812596641983]
そこで本研究では,物理ベースのアニメーションキャラクターのダイナミクスを探索する新しい手法を提案する。目標状態としてアクションをパラメータ化し、目標に向かってエージェントの状態を駆動する短水平目標条件の低レベル制御ポリシーを学習する。
論文参考訳（メタデータ） (2020-09-22T06:18:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。