論文の概要: Abstracting Geo-specific Terrains to Scale Up Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.20078v1
- Date: Tue, 25 Mar 2025 21:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:20.597862
- Title: Abstracting Geo-specific Terrains to Scale Up Reinforcement Learning
- Title(参考訳): ジオ固有地形の抽象化による強化学習のスケールアップ
- Authors: Volkan Ustun, Soham Hans, Rajay Kumar, Yunzhe Wang,
- Abstract要約: 多エージェント強化学習(MARL)は、動的および適応的な合成文字の訓練において、地理的特異な地形におけるインタラクティブなシミュレーションにおいてますます普及している。
本研究は、軍事訓練シミュレーションのためのMARLモデルの開発と訓練の計算コストを削減するためのウェイポイントベースのナビゲーションの可能性について指摘する。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License:
- Abstract: Multi-agent reinforcement learning (MARL) is increasingly ubiquitous in training dynamic and adaptive synthetic characters for interactive simulations on geo-specific terrains. Frameworks such as Unity's ML-Agents help to make such reinforcement learning experiments more accessible to the simulation community. Military training simulations also benefit from advances in MARL, but they have immense computational requirements due to their complex, continuous, stochastic, partially observable, non-stationary, and doctrine-based nature. Furthermore, these simulations require geo-specific terrains, further exacerbating the computational resources problem. In our research, we leverage Unity's waypoints to automatically generate multi-layered representation abstractions of the geo-specific terrains to scale up reinforcement learning while still allowing the transfer of learned policies between different representations. Our early exploratory results on a novel MARL scenario, where each side has differing objectives, indicate that waypoint-based navigation enables faster and more efficient learning while producing trajectories similar to those taken by expert human players in CSGO gaming environments. This research points out the potential of waypoint-based navigation for reducing the computational costs of developing and training MARL models for military training simulations, where geo-specific terrains and differing objectives are crucial.
- Abstract(参考訳): 多エージェント強化学習(MARL)は、動的および適応的な合成文字の訓練において、地理的特異な地形におけるインタラクティブなシミュレーションにおいてますます普及している。
UnityのML-Agentsのようなフレームワークは、シミュレーションコミュニティにそのような強化学習実験をより容易に利用できるようにするのに役立つ。
軍事訓練シミュレーションもMARLの進歩の恩恵を受けるが、それらは複雑で連続的で確率的で、部分的に観察可能で、非定常的で、教義に基づく性質のため、膨大な計算要求を持つ。
さらに、これらのシミュレーションには地理的な地形が必要であり、計算資源の問題をさらに悪化させる。
そこで本研究では,Unityのウェイポイントを利用して,地形の多層的表現抽象化を自動生成して強化学習を拡大するとともに,異なる表現間の学習方針の伝達を可能にする。
CSGOゲーム環境における熟練した人間プレイヤーが採ったようなトラジェクトリを作成しながら,経路ポイントに基づくナビゲーションにより,より高速かつ効率的に学習できることが示唆された。
本研究は,軍事訓練シミュレーションのためのMARLモデルの開発と訓練の計算コストを削減するために,経路ポイントに基づくナビゲーションの可能性を指摘する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - TrajLearn: Trajectory Prediction Learning using Deep Generative Models [4.097342535693401]
軌道予測は、現在位置と過去の動きデータを用いて、ある物体の将来の進路を推定することを目的としている。
これらの課題に対処するために,軌道予測の新しいモデルであるTrajLearnを紹介する。
TrajLearnは、複数の潜在的パスを探索するためにカスタマイズされたビーム検索を統合することで、次の$k$ステップを予測する。
論文 参考訳(メタデータ) (2024-12-30T23:38:52Z) - Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories [1.3658544194443192]
本研究は,運動軌跡を表現するAI基盤モデルの能力を評価することに焦点を当てる。
大規模言語モデルの一つ (LLM) を用いて, トラジェクトリの文字列形式を符号化し, トラジェクトリデータ解析における LLM に基づく表現の有効性を評価する。
論文 参考訳(メタデータ) (2024-08-31T02:57:25Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Multi-Object Navigation in real environments using hybrid policies [18.52681391843433]
本稿では,問題を2つの異なるスキルに分解するハイブリッドナビゲーション手法を提案する。
シミュレーションと実環境の両方において、エンドツーエンドの手法と比較して、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2024-01-24T20:41:25Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Comparing Active Learning Performance Driven by Gaussian Processes or
Bayesian Neural Networks for Constrained Trajectory Exploration [0.0]
現在、人間は科学的な目的を達成するためにロボットを駆動しているが、ロボットの位置によっては、情報交換と駆動コマンドがミッション遂行に不適切な遅延を引き起こす可能性がある。
科学的目的と探索戦略で符号化された自律ロボットは、通信遅延を発生させず、ミッションをより迅速に達成することができる。
能動学習アルゴリズムは知的探索の能力を提供するが、その基盤となるモデル構造は、環境の理解を正確に形成する際に、能動学習アルゴリズムの性能を変化させる。
論文 参考訳(メタデータ) (2023-09-28T02:45:14Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。