論文の概要: Combining Deep Architectures for Information Gain estimation and Reinforcement Learning for multiagent field exploration
- arxiv url: http://arxiv.org/abs/2505.23865v1
- Date: Thu, 29 May 2025 09:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.583565
- Title: Combining Deep Architectures for Information Gain estimation and Reinforcement Learning for multiagent field exploration
- Title(参考訳): 情報ゲイン推定のための深層アーキテクチャとマルチエージェントフィールド探索のための強化学習の組み合わせ
- Authors: Emanuele Masiero, Vito Trianni, Giuseppe Vizzari, Dimitri Ognibene,
- Abstract要約: 精密農業は、作物のモニタリングに効率的な自律システムを必要とする。
本研究は,農業分野を表すグリッド環境における活発な探索課題として,この問題に対処するものである。
- 参考スコア(独自算出の注目度): 0.9365278186740601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precision agriculture requires efficient autonomous systems for crop monitoring, where agents must explore large-scale environments while minimizing resource consumption. This work addresses the problem as an active exploration task in a grid environment representing an agricultural field. Each cell may contain targets (e.g., damaged crops) observable from nine predefined points of view (POVs). Agents must infer the number of targets per cell using partial, sequential observations. We propose a two-stage deep learning framework. A pre-trained LSTM serves as a belief model, updating a probabilistic map of the environment and its associated entropy, which defines the expected information gain (IG). This allows agents to prioritize informative regions. A key contribution is the inclusion of a POV visibility mask in the input, preserving the Markov property under partial observability and avoiding revisits to already explored views. Three agent architectures were compared: an untrained IG-based agent selecting actions to maximize entropy reduction; a DQN agent using CNNs over local 3x3 inputs with belief, entropy, and POV mask; and a Double-CNN DQN agent with wider spatial context. Simulations on 20x20 maps showed that the untrained agent performs well despite its simplicity. The DQN agent matches this performance when the POV mask is included, while the Double-CNN agent consistently achieves superior exploration efficiency, especially in larger environments. Results show that uncertainty-aware policies leveraging entropy, belief states, and visibility tracking lead to robust and scalable exploration. Future work includes curriculum learning, multi-agent cooperation with shared rewards, transformer-based models, and intrinsic motivation mechanisms to further enhance learning efficiency and policy generalization.
- Abstract(参考訳): 精密農業は作物のモニタリングに効率的な自律システムを必要としており、エージェントは資源消費を最小限に抑えながら大規模環境を探索する必要がある。
本研究は,農業分野を表すグリッド環境における活発な探索課題として,この問題に対処するものである。
各細胞は、9つの予め定義された視点(POV)から観測可能な標的(例えば、損傷した作物)を含むことができる。
エージェントは、部分的なシーケンシャルな観察を使用して、細胞毎のターゲット数を推測しなければならない。
本稿では,2段階のディープラーニングフレームワークを提案する。
事前学習されたLSTMは信念モデルとして機能し、予測情報ゲイン(IG)を定義する環境とその関連するエントロピーの確率マップを更新する。
これにより、エージェントは情報領域を優先順位付けできる。
重要な貢献は、入力にPOV可視性マスクを組み込むこと、部分的な可観測性の下でマルコフプロパティを保存すること、すでに探索済みのビューに対するリビジットを避けることである。
3つのエージェントアーキテクチャを比較した。非トレーニングIGベースのエージェントがエントロピー低減を最大化するためのアクションを選択すること、CNNを信念、エントロピー、POVマスクを持つローカル3x3入力に使用するDQNエージェント、より広い空間的コンテキストを持つDouble-CNN DQNエージェントである。
20x20マップのシミュレーションでは、単純さにもかかわらず、訓練されていないエージェントがうまく機能することがわかった。
DQNエージェントはPOVマスクを含む場合のこの性能と一致し、Double-CNNエージェントは、特に大規模環境では、常に優れた探索効率を達成する。
その結果、エントロピー、信念状態、可視性トラッキングを活用する不確実性対応政策が、堅牢でスケーラブルな探索につながることが示された。
今後の研究には、カリキュラムの学習、共有報酬とのマルチエージェント協力、トランスフォーマーベースのモデル、学習効率と政策の一般化をさらに高めるための本質的なモチベーションメカニズムが含まれる。
関連論文リスト
- Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning [2.713322720372114]
説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。
本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。
得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
論文 参考訳(メタデータ) (2025-04-14T10:18:34Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention [12.588866091856309]
本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。
グラフ認識(GAMFQ)に基づく部分観測可能な平均場多エージェント強化学習法を提案する。
実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-25T08:38:32Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。