論文の概要: Towards Optimal Performance and Action Consistency Guarantees in Dec-POMDPs with Inconsistent Beliefs and Limited Communication
- arxiv url: http://arxiv.org/abs/2512.20778v1
- Date: Tue, 23 Dec 2025 21:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.603063
- Title: Towards Optimal Performance and Action Consistency Guarantees in Dec-POMDPs with Inconsistent Beliefs and Limited Communication
- Title(参考訳): 矛盾する信念と限定的コミュニケーションを有するディディポジトリプスの最適性能と行動整合性確保に向けて
- Authors: Moshe Rafaeli Shimron, Vadim Indelman,
- Abstract要約: 不確実性の下でのマルチエージェント意思決定は、効果的で安全な自律運転に不可欠である。
既存のほとんどのアプローチは、すべてのエージェントが計画時に同じ信念を持っていると仮定し、これらの信念が同じデータで条件付けられていることを示唆している。
我々は,信念の不整合を明示的に考慮した,最適な共同行動選択のための新たな分散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.269394037577177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent decision-making under uncertainty is fundamental for effective and safe autonomous operation. In many real-world scenarios, each agent maintains its own belief over the environment and must plan actions accordingly. However, most existing approaches assume that all agents have identical beliefs at planning time, implying these beliefs are conditioned on the same data. Such an assumption is often impractical due to limited communication. In reality, agents frequently operate with inconsistent beliefs, which can lead to poor coordination and suboptimal, potentially unsafe, performance. In this paper, we address this critical challenge by introducing a novel decentralized framework for optimal joint action selection that explicitly accounts for belief inconsistencies. Our approach provides probabilistic guarantees for both action consistency and performance with respect to open-loop multi-agent POMDP (which assumes all data is always communicated), and selectively triggers communication only when needed. Furthermore, we address another key aspect of whether, given a chosen joint action, the agents should share data to improve expected performance in inference. Simulation results show our approach outperforms state-of-the-art algorithms.
- Abstract(参考訳): 不確実性の下でのマルチエージェント意思決定は、効果的で安全な自律運転に不可欠である。
多くの現実のシナリオでは、各エージェントは環境に対する独自の信念を維持し、それに従って行動計画を行う必要がある。
しかしながら、既存のほとんどのアプローチは、すべてのエージェントが計画時に同じ信念を持っていると仮定し、これらの信念が同じデータで条件付けられていることを示唆している。
このような仮定は、コミュニケーションが限られているため、しばしば非現実的である。
実際、エージェントはしばしば一貫性のない信念で活動し、調整が不十分で、潜在的に安全でないパフォーマンスをもたらす可能性がある。
本稿では,この批判的課題に対して,信頼の不整合を明示的に考慮した,最適な共同行動選択のための新たな分散フレームワークを導入する。
提案手法は,オープンループマルチエージェントPOMDP(全てのデータが常に通信されていると仮定する)に対して,動作の一貫性と性能の両立を保証し,必要なときにのみ選択的に通信をトリガーする。
さらに、選択された共同動作が与えられた場合、エージェントがデータを共有して、推論における期待される性能を改善するかという別の重要な側面に対処する。
シミュレーションの結果,提案手法は最先端のアルゴリズムよりも優れていた。
関連論文リスト
- Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks [45.14284473132228]
コンセンサス安定性を最大化する最適協力者を選択するための理論的枠組みを提供する。
この定理に基づいて,安定したコンセンサスを促進するためのBCCS(Belief-Calibrated Consensus Seeking)フレームワークを提案する。
MATHおよびMMLUベンチマークデータセットの実験結果から、提案したBCCSフレームワークが既存の最高の結果を上回っていることが示された。
論文 参考訳(メタデータ) (2025-10-07T17:53:34Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文 参考訳(メタデータ) (2023-04-04T21:49:02Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。