論文の概要: Minimizing Worst-Case Weighted Latency for Multi-Robot Persistent Monitoring: Theory and RL-Based Solutions
- arxiv url: http://arxiv.org/abs/2605.09633v1
- Date: Sun, 10 May 2026 16:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.343384
- Title: Minimizing Worst-Case Weighted Latency for Multi-Robot Persistent Monitoring: Theory and RL-Based Solutions
- Title(参考訳): マルチロボットの持続モニタリングにおける最重み付きレイテンシの最小化:理論とRLに基づく解法
- Authors: Weizhen Wang, Ziheng Wang, Jianping He, Xinping Guan, Xiaoming Duan,
- Abstract要約: ノード重みが監視優先度とエッジ重みをエンコードする重み付きグラフ上でのマルチボット持続監視について検討した。
目標は、すべてのノードの最悪の遅延を無限の時間軸で最小化する、ジョイントロボット軌道を設計することである。
- 参考スコア(独自算出の注目度): 19.90961049459541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study multi-robot persistent monitoring on weighted graphs, where node weights encode monitoring priorities and edge weights encode travel distances. The goal is to design joint robot trajectories that minimize the worst-case weighted latency across all nodes over an infinite time horizon. The widely adopted worst-case latency objective evaluates team performance over the entire time horizon and therefore may fail to distinguish strategies with poor transient behavior but strong asymptotic performance. To address this limitation, we propose a family of tail-performance objectives that generalize the standard objective and study the resulting functional optimization problems. We establish several key theoretical properties, including the existence of optimal strategies, relationships among the proposed objectives and their corresponding optimization problems, approximation by periodic solutions to arbitrary accuracy, and reductions to event-driven decision models with discretized waiting times. Building on these results, we construct an equivalent event-driven Markov decision process (MDP), called the Tail Worst-case Latency-Optimizing Markov Decision Process (TWLO-MDP), which reformulates the tail-performance objective as a standard average-reward criterion. We then develop reinforcement-learning-based solution methods for the TWLO-MDP and introduce the multi-robot monitoring benchmark (M2Bench), a unified platform that supports the evaluation and comparison of heuristic and learning-based monitoring algorithms. Experiments on synthetic and realistic monitoring scenarios show that our methods effectively reduce the worst-case weighted latency and outperform representative baselines.
- Abstract(参考訳): 重み付きグラフにおいて、ノード重みが監視優先度とエッジ重みを符号化し、旅行距離を符号化するマルチロボット持続監視について検討する。
目標は、無限の時間軸ですべてのノードをまたがる最悪の重み付けレイテンシを最小限に抑える、ジョイントロボット軌道を設計することである。
広く採用されている最悪のレイテンシーの目標は、チームのパフォーマンスを全時間にわたって評価するので、過渡的な振る舞いが貧弱だが漸近的なパフォーマンスの強い戦略を区別できない可能性がある。
この制限に対処するため、我々は標準目的を一般化し、結果として生じる機能最適化問題を研究するテールパフォーマンス目的のファミリーを提案する。
我々は,最適戦略の存在,提案対象間の関係とそれに対応する最適化問題,周期解による任意の精度の近似,離散化された待ち時間をもつイベント駆動決定モデルへの還元など,いくつかの重要な理論的特性を確立する。
これらの結果に基づいて,TWLO-MDP(Tail Worst-case Latency-Optimizing Markov Decision Process)と呼ばれるイベント駆動型マルコフ決定プロセスを構築する。
次に、TWLO-MDPのための強化学習に基づくソリューション手法を開発し、ヒューリスティックおよび学習に基づくモニタリングアルゴリズムの評価と比較をサポートする統合プラットフォームであるマルチロボット監視ベンチマーク(M2Bench)を導入する。
合成および現実的なモニタリングシナリオの実験により,本手法は,最悪の重み付きレイテンシを効果的に低減し,代表ベースラインを上回ることを示す。
関連論文リスト
- Barrier-enforced multi-objective optimization for direct point and sharp interval forecasting [1.0966260566122237]
本稿では,単一ニューラルネットワークモデルを用いた多段階確率予測フレームワークを提案する。
我々のアプローチは、ターゲットカバレッジ確率(PICP)を厳密に満たしたモデル構造設計により、非交差予測間隔(PI)を保証する。
その結果, 提案した損失は, PI幅が最も狭い対象範囲を達成し, 現行文献よりも一貫して優れていた。
論文 参考訳(メタデータ) (2026-04-20T16:43:12Z) - Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems [7.759578639008443]
深層強化学習(DRL)は、複雑な意思決定問題を解決するための強力なパラダイムとして登場した。
DRLベースのシステムは、シミュレーションと現実のギャップ、アウト・オブ・ディストリビューション・オブ・ディストリビューションの観察、遅延の重大な影響により、依然として重大な信頼性の問題に直面している。
本稿では,DRLエージェントと代替コントローラ間のリアルタイムスイッチング機構の設計と解析を行うための公式なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T12:08:06Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Trajectory Optimization for Nonlinear Multi-Agent Systems using
Decentralized Learning Model Predictive Control [5.2647625557619815]
非線形疎結合力学と結合状態制約を持つマルチエージェントシステムに対する学習モデル予測制御に基づく分散化最小時間軌道最適化手法を提案する。
このフレームワークは,タスク実行の各イテレーションにおけるエージェント間の通信を不要とし,永続的実現性,有限時間閉ループ収束性,グローバルシステムのタスク反復による非遅延性能を保証する。
論文 参考訳(メタデータ) (2020-04-02T23:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。