論文の概要: On Swarm Leader Identification using Probing Policies
- arxiv url: http://arxiv.org/abs/2512.18146v1
- Date: Sat, 20 Dec 2025 00:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.207228
- Title: On Swarm Leader Identification using Probing Policies
- Title(参考訳): 探索政策を用いた群集リーダーの識別について
- Authors: Stergios E. Bachoumas, Panagiotis Artemiadis,
- Abstract要約: この研究は、対話型Swarm Leader Identification問題を導入している。
相手探索エージェントは、メンバーと物理的に相互作用することで、Swarmのリーダーを特定する。
我々は、犯人の政策を訓練するためにDeep Reinforcement Learningを採用している。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying the leader within a robotic swarm is crucial, especially in adversarial contexts where leader concealment is necessary for mission success. This work introduces the interactive Swarm Leader Identification (iSLI) problem, a novel approach where an adversarial probing agent identifies a swarm's leader by physically interacting with its members. We formulate the iSLI problem as a Partially Observable Markov Decision Process (POMDP) and employ Deep Reinforcement Learning, specifically Proximal Policy Optimization (PPO), to train the prober's policy. The proposed approach utilizes a novel neural network architecture featuring a Timed Graph Relationformer (TGR) layer combined with a Simplified Structured State Space Sequence (S5) model. The TGR layer effectively processes graph-based observations of the swarm, capturing temporal dependencies and fusing relational information using a learned gating mechanism to generate informative representations for policy learning. Extensive simulations demonstrate that our TGR-based model outperforms baseline graph neural network architectures and exhibits significant zero-shot generalization capabilities across varying swarm sizes and speeds different from those used during training. The trained prober achieves high accuracy in identifying the leader, maintaining performance even in out-of-training distribution scenarios, and showing appropriate confidence levels in its predictions. Real-world experiments with physical robots further validate the approach, confirming successful sim-to-real transfer and robustness to dynamic changes, such as unexpected agent disconnections.
- Abstract(参考訳): ロボット群の中でリーダーを特定することは、特にミッション成功のためにリーダーを隠蔽する必要がある敵の状況において重要である。
この研究は、対話型Swarm Leader Identification (iSLI)問題を導入している。
我々は,iSLI問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化し,深層強化学習(特にPPO)を用いてプローバーの政策を訓練する。
提案手法は、TGR(Timed Graph Relationformer)層とSimplified Structured State Space Sequence(S5)モデルを組み合わせた、新しいニューラルネットワークアーキテクチャを利用する。
TGR層は、Swarmのグラフベースの観察を効果的に処理し、時間的依存を捕捉し、学習したゲーティング機構を用いて関係情報を融合し、ポリシー学習のための情報表現を生成する。
大規模なシミュレーションにより、我々のTGRベースのモデルは、ベースライングラフニューラルネットワークアーキテクチャよりも優れており、トレーニング中に使用するものと異なるスウォームサイズと速度で、大きなゼロショットの一般化能力を示すことが示された。
トレーニングされたプローバーは、リーダーを特定し、トレーニング外の分散シナリオでもパフォーマンスを維持し、その予測に適切な信頼性レベルを示す。
物理ロボットを用いた実世界の実験は、このアプローチをさらに検証し、予期せぬエージェント切断のような動的変化に対するシミュレートとロバスト性の成功を確認した。
関連論文リスト
- Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition [0.5024983453990065]
レイヤワイズトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除する。
既存の階層的なトレーニングアプローチの多くは、比較的小さなデータセットでのみ評価されている。
本稿では,最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR'enyiの$alpha$-orderエントロピー関数に基づく,階層的学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T17:24:58Z) - SC-GIR: Goal-oriented Semantic Communication via Invariant Representation Learning [59.45312293893698]
目標指向セマンティックコミュニケーション(SC)は,タスクの意味情報のみを伝達することで,コミュニケーションシステムに革命をもたらすことを目的としている。
画像伝送のためのSC-GIR(Goal-oriented Invariant Representation-based SC)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T04:29:43Z) - Leadership Detection via Time-Lagged Correlation-Based Network Inference [0.0]
本研究では,速度,加速度,方向といった複数の変数にまたがる時間差相関を用いた動的ネットワーク推定手法を提案する。
提案手法は,データ量やパラメータ依存の離散化を必要とせずに,指導パターンの識別を可能にする。
論文 参考訳(メタデータ) (2025-07-07T12:04:10Z) - Transfer Learning Under High-Dimensional Network Convolutional Regression Model [20.18595334666282]
ネットワーク畳み込み回帰(NCR)に基づく高次元移動学習フレームワークを提案する。
提案手法は、ソースとターゲットネットワーク間のドメインシフトに対処する2段階の転送学習アルゴリズムを含む。
Sina Weiboデータを用いたシミュレーションや実世界のアプリケーションを含む経験的評価は、予測精度を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-04-28T16:52:28Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Using Reinforcement Learning to Herd a Robotic Swarm to a Target
Distribution [3.706222947143855]
本稿では「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。
SARSAとQ-Learningの2つの時間差学習アルゴリズムは、リーダー制御ポリシーを生成するために使用される。
論文 参考訳(メタデータ) (2020-06-29T04:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。