論文の概要: Regret Analysis of Distributed Gaussian Process Estimation and Coverage
- arxiv url: http://arxiv.org/abs/2101.04306v2
- Date: Fri, 5 Feb 2021 05:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:31:58.274703
- Title: Regret Analysis of Distributed Gaussian Process Estimation and Coverage
- Title(参考訳): 分散ガウス過程推定と被覆のレグレト解析
- Authors: Lai Wei, Andrew McDonald, Vaibhav Srivastava
- Abstract要約: 未知の非均一な感覚場上の分散マルチロボットカバレッジの問題を研究する。
学習とカバレッジをスケジュールする適応的なカバレッジアルゴリズムを提案し、その重点が探索から搾取へと徐々に移行するようにします。
- 参考スコア(独自算出の注目度): 4.350783459690612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of distributed multi-robot coverage over an unknown,
nonuniform sensory field. Modeling the sensory field as a realization of a
Gaussian Process and using Bayesian techniques, we devise a policy which aims
to balance the tradeoff between learning the sensory function and covering the
environment. We propose an adaptive coverage algorithm called Deterministic
Sequencing of Learning and Coverage (DSLC) that schedules learning and coverage
epochs such that its emphasis gradually shifts from exploration to exploitation
while never fully ceasing to learn. Using a novel definition of coverage regret
which characterizes overall coverage performance of a multi-robot team over a
time horizon $T$, we analyze DSLC to provide an upper bound on expected
cumulative coverage regret. Finally, we illustrate the empirical performance of
the algorithm through simulations of the coverage task over an unknown
distribution of wildfires.
- Abstract(参考訳): 未知の非一様感覚領域における分散マルチロボットカバレッジの問題について検討する。
感覚場をガウス過程の実現としてモデル化し,ベイズ手法を用いて,感覚関数の学習と環境被覆のトレードオフをバランスさせる政策を考案した。
本稿では,学習とカバレッジの時間軸をスケジュールする,決定論的学習とカバレッジのシークエンシング(dslc)と呼ばれる適応的カバレッジアルゴリズムを提案する。
複数ロボットチーム全体のカバレッジパフォーマンスを時間軸のT$で特徴づける新しいカバレッジ後悔の定義を用いて、DSLCを分析し、期待される累積カバレッジ後悔の上限を提供する。
最後に,未知の野火の分布上でのカバレッジタスクのシミュレーションにより,アルゴリズムの実証的性能を示す。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Threshold-aware Learning to Generate Feasible Solutions for Mixed
Integer Programs [5.28005598366543]
ニューラルダイビング(ND)は、混合プログラム(MIP)における部分的な離散変数代入を生成する学習ベースのアプローチの1つである。
カバー範囲を最適化するためのポストホック法と学習に基づくアプローチを導入する。
実験結果から、ニューラルネットワークを学習して高品質な実現可能なソリューションを見つけるためのカバレッジを推定することで、NeurIPS ML4COデータセットの最先端のパフォーマンスが達成されることが示された。
論文 参考訳(メタデータ) (2023-08-01T07:03:16Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Reinforcement Learning-Based Coverage Path Planning with Implicit
Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。
本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文 参考訳(メタデータ) (2021-10-18T05:18:52Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。