Fugu-MT 論文翻訳(概要): DC-Ada: Reward-Only Decentralized Observation-Interface Adaptation for Heterogeneous Multi-Robot Teams

論文の概要: DC-Ada: Reward-Only Decentralized Observation-Interface Adaptation for Heterogeneous Multi-Robot Teams

arxiv url: http://arxiv.org/abs/2604.03905v1
Date: Sun, 05 Apr 2026 00:15:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.828991
Title: DC-Ada: Reward-Only Decentralized Observation-Interface Adaptation for Heterogeneous Multi-Robot Teams
Title（参考訳）: DC-Ada: 異種多ロボットチームのための逆専用分散観察インタフェース適応
Authors: Saad Alqithami,
Abstract要約: 異質性(heterogeneity)は、デプロイされたマルチロボットチームの決定的な機能である。報酬のみの分散適応方式であるDC-Adaを提案する。ロボットごとの観測変換を小型化し、不均一なセンシングを固定された推論インタフェースにマッピングする。
参考スコア（独自算出の注目度）: 2.28438857884398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Heterogeneity is a defining feature of deployed multi-robot teams: platforms often differ in sensing modalities, ranges, fields of view, and failure patterns. Controllers trained under nominal sensing can degrade sharply when deployed on robots with missing or mismatched sensors, even when the task and action interface are unchanged. We present DC-Ada, a reward-only decentralized adaptation method that keeps a pretrained shared policy frozen and instead adapts compact per-robot observation transforms to map heterogeneous sensing into a fixed inference interface. DC-Ada is gradient-free and communication-minimal: it uses budgeted accept/reject random search with short common-random-number rollouts under a strict step budget. We evaluate DC-Ada against four baselines in a deterministic 2D multi-robot simulator covering warehouse logistics, search and rescue, and collaborative mapping, across four heterogeneity regimes (H0--H3) and five seeds with a matched budget of $200{,}000$ joint environment steps per run. Results show that heterogeneity can substantially degrade a frozen shared policy and that no single mitigation dominates across all tasks and metrics. Observation normalization is strongest for reward robustness in warehouse logistics and competitive in search and rescue, while the frozen shared policy is strongest for reward in collaborative mapping. DC-Ada offers a useful complementary operating point: it improves completion most clearly in severe coverage-based mapping while requiring only scalar team returns and no policy fine-tuning or persistent communication. These results position DC-Ada as a practical deploy-time adaptation method for heterogeneous teams.
Abstract（参考訳）: プラットフォームは、モダリティ、範囲、視野、障害パターンを感知する点でしばしば異なります。名目認識下で訓練されたコントローラーは、タスクとアクションインターフェースが変更されていない場合でも、不一致のセンサーや不一致のセンサーを持ったロボットに展開すると、急激に劣化する。我々は、事前訓練された共有ポリシを凍結し、代わりにコンパクトなロボットごとの観察変換を適用して、不均一なセンシングを固定された推論インタフェースにマッピングする、報酬のみの分散適応手法DC-Adaを提案する。 DC-Adaはグラデーションフリーで通信最小であり、厳格なステップ予算の下で短いコモンランダムナンバーのロールアウトでランダム検索を予算化している。我々は, 倉庫の物流, 捜索・救助, 協調マッピングを対象とし, 4つの異種系統 (H0-H3) と5つの種にまたがる4つの基準線に対してDC-Adaの評価を行った。その結果、不均一性は凍結された共有ポリシを実質的に低下させることができ、すべてのタスクやメトリクスで単一の緩和が支配されることはないことが示された。監視の正規化は倉庫のロジスティクスにおける報酬の堅牢性と、捜索・救助における競争力において最強であり、凍結された共有ポリシーは協調マッピングにおける報酬にとって最強である。 DC-Adaは、スカラーチームリターンのみを必要とし、ポリシーの微調整や永続的なコミュニケーションを必要とせず、厳密なカバレッジベースのマッピングにおいて、補完を最も明確に改善する。これらの結果から,DC-Adaを異種チームのための実運用時適応手法として位置づけた。

関連論文リスト

Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces [4.395837214164745]
距離誘導型強化学習(DGRL)を提案し,最大10$text20$アクションを持つ空間における効率的なRLを実現する。定常および不規則に構造化された環境における最先端ベンチマークに対して,最大66%の性能向上を示す。
論文参考訳（メタデータ） (2026-02-09T13:05:07Z)
Instance-Guided Unsupervised Domain Adaptation for Robotic Semantic Segmentation [4.556831252263135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、外部の監視なしにロボットのターゲット環境にネットワークを適応させる。本稿では,3次元地図から始まる多視点一貫した擬似ラベルを生成する手法を提案する。ファウンデーションモデルのゼロショットインスタンスセグメンテーション機能を用いて、これらのラベルを洗練し、インスタンスレベルのコヒーレンスを強制する。
論文参考訳（メタデータ） (2026-02-01T18:49:03Z)
UniRoute: Unified Routing Mixture-of-Experts for Modality-Adaptive Remote Sensing Change Detection [6.323154336421137]
UniRouteは、モダリティ適応学習のための統一されたフレームワークである。グローバルな意味的文脈から局所空間の詳細を遠ざけるための適応受容場ルーティングMOEモジュールを提案する。また,データスカースな異種環境下での統一学習を安定化する一貫性を考慮した自己蒸留手法を提案する。
論文参考訳（メタデータ） (2026-01-21T09:21:25Z)
Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping [12.78977546421283]
Amazonのロボット倉庫では、行き先とシュートをマッピングする問題は、効率的なパッケージソートに不可欠である。本稿では,誘導率の逆方向変動に耐性のある宛先間マッピングポリシを学習する,分散ロバストなマルチエージェント強化学習フレームワークを提案する。 DRMARLは,様々な誘導分布が存在する場合の堅牢なシュートマッピングを実現し,シミュレーションシナリオにおけるパッケージ再循環を平均80%低減することを示す。
論文参考訳（メタデータ） (2025-03-12T18:56:25Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Deep Combinatorial Aggregation [58.78692706974121]
ディープアンサンブル(Deep ensemble)は、不確実性を考慮した学習タスクの最先端結果を実現する、シンプルで効果的な方法である。本研究では,ディープアグリゲーション(DCA)と呼ばれるディープアンサンブルの一般化について検討する。 DCAはネットワークコンポーネントの複数のインスタンスを生成し、それらの組み合わせを集約して、多様化したモデルの提案と予測を生成する。
論文参考訳（メタデータ） (2022-10-12T17:35:03Z)
Decentralized Local Stochastic Extra-Gradient for Variational Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文参考訳（メタデータ） (2021-06-15T17:45:51Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
A Unified Theory of Decentralized SGD with Changing Topology and Local Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。いくつかの応用に対して普遍収束率を導出する。私たちの証明は弱い仮定に依存している。
論文参考訳（メタデータ） (2020-03-23T17:49:15Z)
Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文参考訳（メタデータ） (2020-01-14T17:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。