論文の概要: SwarmGPT: Combining Large Language Models with Safe Motion Planning for Drone Swarm Choreography
- arxiv url: http://arxiv.org/abs/2412.08428v2
- Date: Fri, 10 Oct 2025 16:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.701108
- Title: SwarmGPT: Combining Large Language Models with Safe Motion Planning for Drone Swarm Choreography
- Title(参考訳): SwarmGPT:ドローン群コレオグラフィのための大規模言語モデルと安全な運動計画の組み合わせ
- Authors: Martin Schuck, Dinushka Orrin Dahanaggamaarachchi, Ben Sprenger, Vedant Vyas, Siqi Zhou, Angela P. Schoellig,
- Abstract要約: 我々は,ドローンの性能設計を合理化するための言語ベースの振付師であるSwarmGPTを紹介する。
我々は,最大200機のドローンによるシミュレーションと,20機のドローンによるコレオグラフィーによる実世界実験を通じて,我々のアプローチを検証する。
この研究は、ファンデーションモデルを安全クリティカルなSwarmロボティクスアプリケーションに統合するための青写真を提供する。
- 参考スコア(独自算出の注目度): 9.077008507942688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drone swarm performances -- synchronized, expressive aerial displays set to music -- have emerged as a captivating application of modern robotics. Yet designing smooth, safe choreographies remains a complex task requiring expert knowledge. We present SwarmGPT, a language-based choreographer that leverages the reasoning power of large language models (LLMs) to streamline drone performance design. The LLM is augmented by a safety filter that ensures deployability by making minimal corrections when safety or feasibility constraints are violated. By decoupling high-level choreographic design from low-level motion planning, our system enables non-experts to iteratively refine choreographies using natural language without worrying about collisions or actuator limits. We validate our approach through simulations with swarms up to 200 drones and real-world experiments with up to 20 drones performing choreographies to diverse types of songs, demonstrating scalable, synchronized, and safe performances. Beyond entertainment, this work offers a blueprint for integrating foundation models into safety-critical swarm robotics applications.
- Abstract(参考訳): ドローンの群れのパフォーマンスは、現代ロボット工学の魅惑的な応用として現れてきた。
しかし、スムーズで安全な振付を設計することは、専門家の知識を必要とする複雑な作業である。
我々は,大規模言語モデル(LLM)の推論能力を利用して,ドローンの性能設計を効率化する言語ベースの振付師SwarmGPTを提案する。
LLMは安全フィルタによって強化され、安全や実現可能性の制約が違反した場合に最小限の修正を行うことで、デプロイ性を確保する。
低レベルな動き計画から高レベルな振付設計を分離することにより、非専門家が衝突やアクチュエータ制限を気にすることなく、自然言語を用いて反復的に振付を洗練できる。
当社のアプローチは、最大200台のドローンによるシミュレーションと、最大20台のドローンによる実世界の実験を通じて、さまざまな種類の曲の振り付けを行い、スケーラブルで同期化され、安全なパフォーマンスを示すことで検証します。
エンターテイメント以外にも、この研究は、ファンデーションモデルを安全クリティカルなSwarmロボティクスアプリケーションに統合するための青写真を提供している。
関連論文リスト
- ZEST: Zero-shot Embodied Skill Transfer for Athletic Robot Control [37.4764082674475]
本稿では,多種多様な情報源からの強化学習を通じて政策を訓練する動きの合理化フレームワークであるZESTを紹介する。
ZESTは、連絡先ラベル、参照または観察ウィンドウ、状態推定器、広範囲な報酬形成を避けながら、行動やプラットフォームをまたいで一般化する。
ボストン・ダイナミクスのアトラス・ヒューマノイドで、ZESTはモーションキャプチャーからダイナミックでマルチコンタクトのスキル(例えば、陸軍のクロール、ブレイクダンス)を学ぶ。
論文 参考訳(メタデータ) (2026-01-30T23:35:02Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文 参考訳(メタデータ) (2025-09-29T03:30:40Z) - Learning Dolly-In Filming From Demonstration Using a Ground-Based Robot [3.8803818210315733]
本稿では,GAIL (Generative Adversarial Imitation Learning) を用いたLearning from Demonstration (LfD) アプローチを提案する。
私たちのパイプラインは、クリエイティブなプロフェッショナルの範囲内で、直感的でスタイリッシュなカメラコントロールを提供し、芸術的な意図とロボットの自律性の間のギャップを埋めます。
論文 参考訳(メタデータ) (2025-08-30T17:54:48Z) - ChoreoMuse: Robust Music-to-Dance Video Generation with Style Transfer and Beat-Adherent Motion [10.21851621470535]
SMPLフォーマットパラメータと変分バージョンを音楽とビデオ生成の仲介として使用する拡散ベースのフレームワークであるChoreoMuseを紹介する。
ChoreoMuseは、さまざまな音楽ジャンルと個々のダンサー特性にまたがって、スタイルコントロール可能な、高忠実なダンスビデオ生成をサポートする。
提案手法では、新しい音楽エンコーダであるMotionTuneを用いて、音声から動きの手がかりを捕捉し、生成した振付が入力された音楽のビートや表現性に密接に従うことを保証する。
論文 参考訳(メタデータ) (2025-07-26T07:17:50Z) - Global Position Aware Group Choreography using Large Language Model [0.0]
大規模言語モデル(LLM)の最近の進歩を生かしたグループ振付フレームワークを提案する。
我々のフレームワークは、連続した特徴を離散トークンに変換するトークンライザと、動きトークンを予測するために微調整されたLCMから構成される。
我々のフレームワークは、強い音楽相関とダンサーの一貫性を維持しながら、現実的で多様なグループダンスを生成することができる。
論文 参考訳(メタデータ) (2025-03-12T07:25:32Z) - GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music [22.352036716156967]
GCDanceは、音楽とテキストの両方のプロンプトに条件付きジャンル固有のダンスモーションを生成するための分類器なし拡散フレームワークである。
提案手法は,高レベルな事前学習音楽基礎モデルと手作りのマルチグラニュラリティ特徴融合機能を組み合わせることで,音楽の特徴を抽出する。
論文 参考訳(メタデータ) (2025-02-25T15:53:18Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns [48.54956784928394]
Lodge++は、高品質で、超長い、鮮やかなダンスを生成するためのコレオグラフィーフレームワークである。
計算効率の課題に対処するため、Lodge++では、粗いダンスから罰金までのダンスを生成するための2段階の戦略を採用している。
Lodge++は,様々なダンスジャンルに適した超長いダンスを高速に生成できることを示す広範な実験によって検証されている。
論文 参考訳(メタデータ) (2024-10-27T09:32:35Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - Harmonious Group Choreography with Trajectory-Controllable Diffusion [28.82215057058883]
Trajectory-Controllable Diffusion (TCDiff) は、重複しない軌道を利用してコヒーレントなダンスの動きを促進する新しい手法である。
ダンサーの衝突に対処するために,音楽に基づいて複数のダンサーの軌道を生成できるダンス・ビート・ナビゲータを導入する。
フレキシブルなフットワークを実現するために,隣接するフレームからの軌道変位を利用したフットワークアダプタを提案する。
論文 参考訳(メタデータ) (2024-03-10T12:11:34Z) - Greedy Perspectives: Multi-Drone View Planning for Collaborative Perception in Cluttered Environments [1.3499500088995464]
我々は,グループを撮影する目的を意識したマルチロボット・マルチアクター・ビュー・プランナーを開発した。
コンフォーメーションプランナーと比較して、連続プランナーは3つのシナリオで俳優を撮影する際の14%のビュー報酬を生成する。
また、ロボット間衝突の制約を伴わずに連続的な計画を行う場合、ほぼ同一のビュー報酬も観測する。
論文 参考訳(メタデータ) (2023-10-16T22:23:18Z) - Collaborative Target Search with a Visual Drone Swarm: An Adaptive
Curriculum Embedded Multistage Reinforcement Learning Approach [0.0]
適応型カリキュラム組込み多段階学習(ACEMSL)という,データ効率の高い深層強化学習(DRL)手法を提案する。
我々は、協調対象探索タスクを、個別の障害物回避、対象探索、エージェント間協調を含むいくつかのサブタスクに分解し、多段階学習でエージェントを段階的に訓練する。
我々は、訓練されたモデルを実際の視覚ドローン群に展開し、微調整なしでCTS操作を行う。
論文 参考訳(メタデータ) (2022-04-26T09:32:22Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。