論文の概要: Towards safe control parameter tuning in distributed multi-agent systems
- arxiv url: http://arxiv.org/abs/2508.13608v1
- Date: Tue, 19 Aug 2025 08:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.843076
- Title: Towards safe control parameter tuning in distributed multi-agent systems
- Title(参考訳): 分散マルチエージェントシステムにおける安全な制御パラメータチューニングに向けて
- Authors: Abdullah Tokmak, Thomas B. Schön, Dominik Baumann,
- Abstract要約: 自律ロボットや協調ロボットなど、多くの安全クリティカルな現実世界問題は、分散マルチエージェントの性質である。
安全性を確保しつつ、これらのシステムの性能を最適化するために、各エージェントのパラメータが結合して関数結合制約を補償する問題として、それらをキャストすることができる。
- 参考スコア(独自算出の注目度): 10.487548576958421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many safety-critical real-world problems, such as autonomous driving and collaborative robots, are of a distributed multi-agent nature. To optimize the performance of these systems while ensuring safety, we can cast them as distributed optimization problems, where each agent aims to optimize their parameters to maximize a coupled reward function subject to coupled constraints. Prior work either studies a centralized setting, does not consider safety, or struggles with sample efficiency. Since we require sample efficiency and work with unknown and nonconvex rewards and constraints, we solve this optimization problem using safe Bayesian optimization with Gaussian process regression. Moreover, we consider nearest-neighbor communication between the agents. To capture the behavior of non-neighboring agents, we reformulate the static global optimization problem as a time-varying local optimization problem for each agent, essentially introducing time as a latent variable. To this end, we propose a custom spatio-temporal kernel to integrate prior knowledge. We show the successful deployment of our algorithm in simulations.
- Abstract(参考訳): 自律運転や協調ロボットなど、多くの安全クリティカルな現実世界問題は、分散マルチエージェントの性質である。
安全性を確保しつつ、これらのシステムの性能を最適化するために、分散最適化問題として、各エージェントがパラメータを最適化し、結合制約を受ける結合報酬関数を最大化する。
以前の仕事は、集中的な環境を研究するか、安全性を考慮していないか、サンプル効率に苦しむかのいずれかであった。
サンプル効率と未知かつ非凸な報酬や制約を扱うため、ガウス過程回帰を用いた安全なベイズ最適化を用いてこの最適化問題を解く。
さらに,エージェント間の最寄りのコミュニケーションについても検討する。
非隣接エージェントの振舞いを捉えるため,静的グローバル最適化問題を時間変動局所最適化問題として再定式化し,基本的に潜時変数として時間を導入する。
そこで本研究では,事前知識を統合するための時空間カーネルを提案する。
シミュレーションにおけるアルゴリズムの展開を成功例に示す。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Towards Safe Multi-Task Bayesian Optimization [1.3654846342364308]
システムの物理モデルを減らすことは最適化プロセスに組み込むことができ、それを加速することができる。
これらのモデルは実際のシステムの近似を提供することができ、それらの評価は極めて安価である。
安全はベイズ最適化のようなオンライン最適化手法にとって重要な基準である。
論文 参考訳(メタデータ) (2023-12-12T13:59:26Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。