論文の概要: Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration
- arxiv url: http://arxiv.org/abs/2603.03595v1
- Date: Wed, 04 Mar 2026 00:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.129068
- Title: Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration
- Title(参考訳): 効率的な協調型空間探索のためのハイブリッド信念強化学習
- Authors: Danish Rizvi, David Boyle,
- Abstract要約: 純粋なモデルに基づくアプローチは、構造化された不確実性推定を提供するが、適応的なポリシー学習を欠いている。
本稿では,このギャップに対処するためのハイブリッドな信念強化学習フレームワークを提案する。
その結果、累積報酬は10.8%上昇し、ベースラインよりも38%早く収束した。
- 参考スコア(独自算出の注目度): 3.0222726254970174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coordinating multiple autonomous agents to explore and serve spatially heterogeneous demand requires jointly learning unknown spatial patterns and planning trajectories that maximize task performance. Pure model-based approaches provide structured uncertainty estimates but lack adaptive policy learning, while deep reinforcement learning often suffers from poor sample efficiency when spatial priors are absent. This paper presents a hybrid belief-reinforcement learning (HBRL) framework to address this gap. In the first phase, agents construct spatial beliefs using a Log-Gaussian Cox Process (LGCP) and execute information-driven trajectories guided by a Pathwise Mutual Information (PathMI) planner with multi-step lookahead. In the second phase, trajectory control is transferred to a Soft Actor-Critic (SAC) agent, warm-started through dual-channel knowledge transfer: belief state initialization supplies spatial uncertainty, and replay buffer seeding provides demonstration trajectories generated during LGCP exploration. A variance-normalized overlap penalty enables coordinated coverage through shared belief state, permitting cooperative sensing in high-uncertainty regions while discouraging redundant coverage in well-explored areas. The framework is evaluated on a multi-UAV wireless service provisioning task. Results show 10.8% higher cumulative reward and 38% faster convergence over baselines, with ablation studies confirming that dual-channel transfer outperforms either channel alone.
- Abstract(参考訳): 複数の自律エージェントを協調して、空間的に不均一な需要を探索し、提供するためには、未知の空間パターンを共同で学習し、タスクのパフォーマンスを最大化する計画軌跡が必要となる。
純モデルに基づくアプローチは、構造化された不確実性推定を提供するが、適応的なポリシー学習は欠如している。
本稿では,このギャップに対処するためのハイブリッド信念強化学習(HBRL)フレームワークを提案する。
第1段階では、エージェントはログガウスコックスプロセス(LGCP)を用いて空間的信念を構築し、多段階のルックアヘッドでPathMI(Pathwise Mutual Information)プランナーによって案内される情報駆動軌道を実行する。
第2段階では、軌道制御はソフトアクター・クリティカル(SAC)エージェントに転送され、二チャンネルの知識伝達によりウォームスタートされる:信念状態初期化は空間的不確実性を提供し、リプレイバッファシードはLGCP探査中に生成された実証軌道を提供する。
分散正規化重複ペナルティは、共有信念状態を通じて協調的なカバレッジを可能にし、高い不確実性領域における協調的なセンシングを可能にし、よく探索された領域における冗長なカバレッジを阻止する。
このフレームワークは、マルチUAV無線サービス提供タスクで評価される。
その結果、累積報酬が10.8%上昇し、ベースラインへの収束が38%速くなった。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Distributed Area Coverage with High Altitude Balloons Using Multi-Agent Reinforcement Learning [0.0]
高高度気球(HAB)は、成層圏の風層を利用して水平制御を制限し、偵察、環境モニタリング、通信ネットワークに応用することができる。
既存のマルチエージェントHABコーディネートアプローチでは、Voron partitioningoiやExtremumといった決定論的手法を用いて、大域の星座を制御している。
本研究は,マルチエージェント強化学習(MARL)のHABコーディネーションへの最初の体系的応用について述べる。
論文 参考訳(メタデータ) (2025-10-04T14:39:45Z) - Stochastic Path Planning in Correlated Obstacle Fields [1.8184089804625951]
本研究では,不確実な状態の空間的相関障害を有するナビゲーション環境であるSCOS(Correlated Obstacle Scene)問題を紹介する。
我々は,ブロック確率を洗練させるベイズ的信念更新を開発し,その後部を用いて探索空間を効率よく削減する。
このフレームワークは、敵の割り込みやクラスタ化された自然災害のある環境でのナビゲーション上の課題に対処する。
論文 参考訳(メタデータ) (2025-09-23T20:30:35Z) - Sharp Gaussian approximations for Decentralized Federated Learning [1.2489632787815885]
フェデレートラーニング(Federated Learning)は、プライバシに敏感なコラボレーティブ環境において、重要な最適化手法としてローカルSGDが登場し、注目を集めている。
局所的なSGDに対する2つの一般化されたガウス近似結果を示し、その意味を探求する。
タイムユニフォーム近似は、対向攻撃を検出するブートストラップベースのテストをサポートする。
論文 参考訳(メタデータ) (2025-05-12T23:40:13Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。