Fugu-MT 論文翻訳(概要): Optimizing Plastic Waste Collection in Water Bodies Using Heterogeneous Autonomous Surface Vehicles with Deep Reinforcement Learning

論文の概要: Optimizing Plastic Waste Collection in Water Bodies Using Heterogeneous Autonomous Surface Vehicles with Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2412.02316v1
Date: Tue, 03 Dec 2024 09:32:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.958202
Title: Optimizing Plastic Waste Collection in Water Bodies Using Heterogeneous Autonomous Surface Vehicles with Deep Reinforcement Learning
Title（参考訳）: 深部強化学習による不均質自動表面車両を用いた水中プラスチックごみ収集の最適化
Authors: Alejandro Mendoza Barrionuevo, Samuel Yanes Luis, Daniel Gutiérrez Reina, Sergio L. Toral Marín,
Abstract要約: 本稿では,多種多面体車両を用いた情報経路計画のためのモデルフリー深部強化学習フレームワークを提案する。このシステムは、スカウトと清掃員の2つのチームを雇用している。これらのチーム間の調整は、深い強化アプローチによって達成される。
参考スコア（独自算出の注目度）: 43.17128828646846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a model-free deep reinforcement learning framework for informative path planning with heterogeneous fleets of autonomous surface vehicles to locate and collect plastic waste. The system employs two teams of vehicles: scouts and cleaners. Coordination between these teams is achieved through a deep reinforcement approach, allowing agents to learn strategies to maximize cleaning efficiency. The primary objective is for the scout team to provide an up-to-date contamination model, while the cleaner team collects as much waste as possible following this model. This strategy leads to heterogeneous teams that optimize fleet efficiency through inter-team cooperation supported by a tailored reward function. Different trainings of the proposed algorithm are compared with other state-of-the-art heuristics in two distinct scenarios, one with high convexity and another with narrow corridors and challenging access. According to the obtained results, it is demonstrated that deep reinforcement learning based algorithms outperform other benchmark heuristics, exhibiting superior adaptability. In addition, training with greedy actions further enhances performance, particularly in scenarios with intricate layouts.
Abstract（参考訳）: 本稿では, プラスチック廃棄物の発見・収集を目的とした, 不均質な車両群を用いた情報経路計画のためのモデルフリー深部強化学習フレームワークを提案する。このシステムは、スカウトと清掃員の2つのチームの車両を雇用している。これらのチーム間の調整は、エージェントがクリーニング効率を最大化するための戦略を学ぶことができる、深い強化アプローチによって達成される。主な目的は、スカウトチームが最新の汚染モデルを提供することであり、一方、クリーナーチームは、このモデルに従って可能な限り多くの無駄を収集する。この戦略は、適切な報酬関数によってサポートされたチーム間の協力を通じて、艦隊効率を最適化する異種チームにつながります。提案アルゴリズムの異なる訓練は、2つの異なるシナリオにおいて他の最先端のヒューリスティックと比較される。得られた結果から, 深い強化学習に基づくアルゴリズムは, 他のベンチマークヒューリスティックよりも優れ, 優れた適応性を示すことが示された。さらに、特に複雑なレイアウトのシナリオでは、greedyアクションによるトレーニングによりパフォーマンスがさらに向上する。

関連論文リスト

Shared learning of powertrain control policies for vehicle fleets [3.9325957466009203]
深部強化学習(DRL)は、燃料経済やその他のパフォーマンス指標を最適化するパワートレイン制御ポリシーを現場で学習することを目的としている。本稿では, 蒸留グループ政策を用いて, 車両群間で共有学習を行うための新しい枠組みを提案する。ベースラインに比べて燃料経済は平均8.5%改善している。
論文参考訳（メタデータ） (2024-04-27T13:01:05Z)
UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文参考訳（メタデータ） (2024-04-11T03:19:22Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文参考訳（メタデータ） (2023-12-26T09:03:23Z)
A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文参考訳（メタデータ） (2023-12-19T15:39:09Z)
One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文参考訳（メタデータ） (2023-05-23T13:44:09Z)
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文参考訳（メタデータ） (2022-08-04T04:35:53Z)
Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文参考訳（メタデータ） (2021-03-08T05:34:05Z)
Reinforcement Learning to Optimize the Logistics Distribution Routes of Unmanned Aerial Vehicle [0.0]
本稿では,複数のノフライゾーンを含む複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。
論文参考訳（メタデータ） (2020-04-21T09:42:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。