論文の概要: Agile Flight Emerges from Multi-Agent Competitive Racing
- arxiv url: http://arxiv.org/abs/2512.11781v1
- Date: Fri, 12 Dec 2025 18:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.874498
- Title: Agile Flight Emerges from Multi-Agent Competitive Racing
- Title(参考訳): マルチエージェントの競争力のあるレースからアジャイルフライトが誕生
- Authors: Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio,
- Abstract要約: アジャイルの飛行と戦略は、強化学習で訓練されたエージェントから生まれます。
マルチエージェントコンペティションは、単一エージェントのプログレッシブベースの報酬でトレーニングされたポリシーよりも、現実世界に確実に移行するポリシーを得られることが分かっています。
- 参考スコア(独自算出の注目度): 7.9331622838838305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through multi-agent competition and the sparse high-level objective of winning a race, we find that both agile flight (e.g., high-speed motion pushing the platform to its physical limits) and strategy (e.g., overtaking or blocking) emerge from agents trained with reinforcement learning. We provide evidence in both simulation and the real world that this approach outperforms the common paradigm of training agents in isolation with rewards that prescribe behavior, e.g., progress on the raceline, in particular when the complexity of the environment increases, e.g., in the presence of obstacles. Moreover, we find that multi-agent competition yields policies that transfer more reliably to the real world than policies trained with a single-agent progress-based reward, despite the two methods using the same simulation environment, randomization strategy, and hardware. In addition to improved sim-to-real transfer, the multi-agent policies also exhibit some degree of generalization to opponents unseen at training time. Overall, our work, following in the tradition of multi-agent competitive game-play in digital domains, shows that sparse task-level rewards are sufficient for training agents capable of advanced low-level control in the physical world. Code: https://github.com/Jirl-upenn/AgileFlight_MultiAgent
- Abstract(参考訳): マルチエージェントの競争と、レースに勝つという希少なハイレベルな目標を通じて、強化学習で訓練されたエージェントからアジャイルなフライト(例えば、プラットフォームを物理的な限界まで押し上げる高速な動き)と戦略(例えば、オーバーテイクやブロッキング)が生まれます。
シミュレーションと現実の両方において、このアプローチは、例えば、レースラインの進行を規定する報酬、特に障害物の存在下で環境の複雑さが増加する場合において、トレーニングエージェントの共通のパラダイムよりも優れているという証拠を提供する。
さらに,マルチエージェントコンペティションは,同一のシミュレーション環境,ランダム化戦略,ハードウェアを用いた2つの手法に拘わらず,単一エージェントのプログレッシブベースの報酬を訓練したポリシーよりも,現実世界に確実に移行するポリシーを得られることがわかった。
sim-to-real転送の改善に加えて、マルチエージェントポリシーはトレーニング時に見えない相手に対してある程度の一般化を示す。
全体として、デジタルドメインにおけるマルチエージェント競争ゲームプレイの伝統に従って、我々の研究は、物理世界で高度な低レベル制御が可能なトレーニングエージェントに、タスクレベルの報酬が不足していることを示している。
コード:https://github.com/Jirl-upenn/AgileFlight_MultiAgent
関連論文リスト
- Robust Agents in Open-Ended Worlds [4.199586801784625]
この論文では、オープンディペンデンスとマルチエージェント学習の方法論を用いて、堅牢なAIエージェントを訓練し、評価する。
まず、手続き的なコンテンツ生成を通じて多様な環境を作成するためのサンドボックスフレームワークであるMiniHackを紹介します。
次に, 2プレイヤーゼロサムゲームにおけるRLエージェントのロバスト性および一般化性を漸進的に向上させる, 対角曲線生成の新しい手法であるMaestroを提案する。
論文 参考訳(メタデータ) (2025-12-09T00:30:33Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Generalizable Agent Modeling for Agent Collaboration-Competition Adaptation with Multi-Retrieval and Dynamic Generation [19.74776726500979]
ひとつのエージェントを新しいマルチエージェントシステムに適用することは、課題をもたらし、さまざまなタスク、環境、未知のチームメイトや相手とのインタラクションを調整する必要がある。
本稿では,多種多様なシナリオにまたがってエージェントを一般化するためのエージェント評価を行う,より包括的なエージェント協調適応手法を提案する。
ACCAでは、エージェントはタスクや環境の変化を調整し、目に見えないチームメイトと協力し、未知の相手と競う。
論文 参考訳(メタデータ) (2025-06-20T03:28:18Z) - Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Flatland Competition 2020: MAPF and MARL for Efficient Train
Coordination on a Grid World [49.80905654161763]
車両再スケジュール問題(vrsp)の解法開発を目的としたフラットランドコンペティション
VRSPは、交通ネットワークにおける旅行のスケジュールと、故障が発生した場合の車両の再スケジュールに関するものである。
現代の鉄道網の複雑化は、交通の動的リアルタイムスケジューリングを事実上不可能にします。
論文 参考訳(メタデータ) (2021-03-30T17:13:29Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。