論文の概要: CLIPSwarm: Generating Drone Shows from Text Prompts with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.13467v1
- Date: Wed, 20 Mar 2024 10:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:18:34.496212
- Title: CLIPSwarm: Generating Drone Shows from Text Prompts with Vision-Language Models
- Title(参考訳): CLIPSwarm:ビジョンランゲージモデルによるテキストプロンプトからドローンショーを生成する
- Authors: Pablo Pueyo, Eduardo Montijano, Ana C. Murillo, Mac Schwager,
- Abstract要約: 本稿では,自然言語に基づくSwarmドローン生成のモデリングを自動化するアルゴリズムであるCLIPSを紹介する。
このアルゴリズムは「探索」と「探索」の異なるステップを用いて、テキスト記述と整合するロボットの形成を反復的に洗練する。
実験結果から,自然言語記述からロボット生成を正確にモデル化するシステムの有効性が示された。
- 参考スコア(独自算出の注目度): 18.204415143160766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces CLIPSwarm, a new algorithm designed to automate the modeling of swarm drone formations based on natural language. The algorithm begins by enriching a provided word, to compose a text prompt that serves as input to an iterative approach to find the formation that best matches the provided word. The algorithm iteratively refines formations of robots to align with the textual description, employing different steps for "exploration" and "exploitation". Our framework is currently evaluated on simple formation targets, limited to contour shapes. A formation is visually represented through alpha-shape contours and the most representative color is automatically found for the input word. To measure the similarity between the description and the visual representation of the formation, we use CLIP [1], encoding text and images into vectors and assessing their similarity. Subsequently, the algorithm rearranges the formation to visually represent the word more effectively, within the given constraints of available drones. Control actions are then assigned to the drones, ensuring robotic behavior and collision-free movement. Experimental results demonstrate the system's efficacy in accurately modeling robot formations from natural language descriptions. The algorithm's versatility is showcased through the execution of drone shows in photorealistic simulation with varying shapes. We refer the reader to the supplementary video for a visual reference of the results.
- Abstract(参考訳): 本稿では,自然言語に基づくSwarmドローン生成のモデリングを自動化するアルゴリズムであるCLIPSwarmを紹介する。
このアルゴリズムは、提供された単語を豊かにすることで始まり、提供された単語に最もよくマッチする生成を見つけるための反復的なアプローチへの入力として機能するテキストプロンプトを構成する。
このアルゴリズムは、ロボットの形成を反復的に洗練し、テキスト記述と整合し、「探索」と「探索」の異なるステップを利用する。
現在,本フレームワークは,輪郭形状に限定された簡易な形成目標に基づいて評価されている。
生成はアルファ形状の輪郭を通して視覚的に表現され、入力語に対して最も代表的な色が自動的に見つかる。
生成の視覚的表現と記述の類似性を測定するために,CLIP[1]を用いてテキストと画像をベクトルに符号化し,それらの類似性を評価する。
その後、アルゴリズムは、利用可能なドローンの所定の制約の中で、より効果的に単語を視覚的に表現するように構成を再構成する。
制御アクションはドローンに割り当てられ、ロボットの動作と衝突のない動きを確実にする。
実験結果から,自然言語記述からロボット生成を正確にモデル化するシステムの有効性が示された。
アルゴリズムの汎用性は、様々な形状のフォトリアリスティックシミュレーションにおいて、ドローンショーの実行を通じて示される。
結果の視覚的参照のために、読者を補足ビデオに参照する。
関連論文リスト
- Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics [11.88216611522207]
市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクスト・イン・コンテクスト・ビジュアル・模倣学習を行うことができることを示す。
テキストプリトレーニングされたトランスフォーマーが取り込み、生成できるトークンのシーケンスに視覚的観察を変換することで、これを実現する。
これらのトランスフォーマーは, 言語のみに基づいて訓練されているにもかかわらず, トークン化された視覚的キーポイントの観察を行動軌跡に翻訳することに優れていた。
論文 参考訳(メタデータ) (2024-03-28T17:04:00Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Graph Neural Networks for Relational Inductive Bias in Vision-based Deep
Reinforcement Learning of Robot Control [0.0]
この研究は、リレーショナル帰納バイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを導入し、効率的な位置制御ポリシーを学習する。
我々は、画像符号化ネットワークによって生成された視覚シーンの低次元記述を用いて、ロボットの内部状態をモデル化するグラフ表現を導出する。
視覚的に現実的な3D環境下での6-DoFロボットアームのサンプル効率を向上させるためのモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:11:54Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Embodying Pre-Trained Word Embeddings Through Robot Actions [9.048164930020404]
多語語を含む様々な言語表現に適切に対応することは、ロボットにとって重要な能力です。
これまでの研究で、ロボットは事前訓練された単語埋め込みを用いることで、アクション記述ペアデータセットに含まれていない単語を使用できることが示されている。
ロボットの感覚運動体験を用いて,事前学習された単語埋め込みを具体化したものに変換する。
論文 参考訳(メタデータ) (2021-04-17T12:04:49Z) - Lightweight Generative Adversarial Networks for Text-Guided Image
Manipulation [139.41321867508722]
本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。
単語レベルでの微粒な学習フィードバックを提供する新しい単語レベル判別器を提案する。
論文 参考訳(メタデータ) (2020-10-23T02:43:02Z) - Hierarchical Modeling of Multidimensional Data in Regularly Decomposed
Spaces: Synthesis and Perspective [0.0]
このプロジェクトの目的は,自己記述型ビデオ符号化の原理を定義することである。
マルチレゾリューション・コンピューティングの手法を基礎として,部分的正則成分からなる画像セグメンテーションを開発することを提案する。
単純な形は視覚的アルファベットと比較され、複雑な形は、このアルファベットを使って書かれた単語となり、辞書に記録されるように思われる。
論文 参考訳(メタデータ) (2020-01-13T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。