論文の概要: SketchPlan: Diffusion Based Drone Planning From Human Sketches
- arxiv url: http://arxiv.org/abs/2510.03545v1
- Date: Fri, 03 Oct 2025 22:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.105551
- Title: SketchPlan: Diffusion Based Drone Planning From Human Sketches
- Title(参考訳): SketchPlan:人足による拡散型ドローン計画
- Authors: Sixten Norelius, Aaron O. Feldman, Mac Schwager,
- Abstract要約: 本研究では,深度画像上の2次元手描きスケッチを解釈し,ドローンナビゲーションのための3次元飛行経路を生成する拡散型プランナを提案する。
SketchPlanは、人間のスケッチを投影された2DパスにマッピングするSketchAdapterと、2Dプロジェクションから3Dトラジェクトリを推測する拡散モデルDiffPathと、第1の人視深度画像の2つのコンポーネントで構成されている。
本モデルでは,ゼロショット・シム・トゥ・リアル・トランスファーを実現し,これまで見られなかった実環境において,正確かつ安全な飛行経路を生成する。
- 参考スコア(独自算出の注目度): 7.6870716086914435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SketchPlan, a diffusion-based planner that interprets 2D hand-drawn sketches over depth images to generate 3D flight paths for drone navigation. SketchPlan comprises two components: a SketchAdapter that learns to map the human sketches to projected 2D paths, and DiffPath, a diffusion model that infers 3D trajectories from 2D projections and a first person view depth image. Our model achieves zero-shot sim-to-real transfer, generating accurate and safe flight paths in previously unseen real-world environments. To train the model, we build a synthetic dataset of 32k flight paths using a diverse set of photorealistic 3D Gaussian Splatting scenes. We automatically label the data by computing 2D projections of the 3D flight paths onto the camera plane, and use this to train the DiffPath diffusion model. However, since real human 2D sketches differ significantly from ideal 2D projections, we additionally label 872 of the 3D flight paths with real human sketches and use this to train the SketchAdapter to infer the 2D projection from the human sketch. We demonstrate SketchPlan's effectiveness in both simulated and real-world experiments, and show through ablations that training on a mix of human labeled and auto-labeled data together with a modular design significantly boosts its capabilities to correctly interpret human intent and infer 3D paths. In real-world drone tests, SketchPlan achieved 100\% success in low/medium clutter and 40\% in unseen high-clutter environments, outperforming key ablations by 20-60\% in task completion.
- Abstract(参考訳): 深度画像上の2次元手描きスケッチを解釈し,ドローンナビゲーションのための3次元飛行経路を生成する拡散型プランナであるSketchPlanを提案する。
SketchPlanは、人間のスケッチを投影された2DパスにマッピングするSketchAdapterと、2Dプロジェクションから3Dトラジェクトリを推測する拡散モデルDiffPathと、第1の人視深度画像の2つのコンポーネントで構成されている。
我々のモデルはゼロショット・シム・トゥ・リアル・トランスファーを実現し、これまで見えなかった現実世界の環境において、正確かつ安全な飛行経路を生成する。
このモデルをトレーニングするために,フォトリアリスティックな3Dガウス撮影シーンの多種多様なセットを用いて,32kの飛行経路の合成データセットを構築した。
カメラ平面上の3次元飛行経路の2次元投影を計算し、DiffPath拡散モデルのトレーニングに使用する。
しかし、実際の人間の2Dスケッチは理想的な2Dプロジェクションと大きく異なるため、実際の人間のスケッチで3Dの飛行経路の852をラベル付けし、これをSketchAdapterのトレーニングに使用して、人間のスケッチから2Dプロジェクションを推測する。
シミュレーションと実世界の両方の実験におけるSketchPlanの有効性を実証し、人間のラベル付きデータと自動ラベル付きデータの混合によるトレーニングとモジュール設計により、人間の意図を正しく解釈し、3Dパスを推測する能力を大幅に向上させることを示す。
実世界のドローンテストでは、SketchPlanは低濃度のクラッタで100\%、目に見えないハイクラッタ環境で40\%を達成し、タスク完了時のキーアブレーションを20-60\%上回った。
関連論文リスト
- ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - GroundUp: Rapid Sketch-Based 3D City Massing [8.0366666733521]
スケッチが一般的なツールであるアーリーステージの都市デザインに焦点を当てる。
私たちは、2Dスケッチと3Dモデルを簡単に切り替えることで、アーキテクトのアイデアの迅速な修正を支援することを目的としています。
論文 参考訳(メタデータ) (2024-07-17T16:59:29Z) - Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering [17.918603435615335]
3Dスケッチは、オブジェクトやシーンの3D形状と構造を視覚的に表現するために広く使用されている。
Diff3DSは、ビュー一貫性のある3Dスケッチを生成するための、新しい差別化可能なフレームワークである。
我々のフレームワークは3Dスケッチと画像のドメインをブリッジし、3Dスケッチのエンドツーエンド最適化を実現する。
論文 参考訳(メタデータ) (2024-05-24T07:48:14Z) - 3D VR Sketch Guided 3D Shape Prototyping and Exploration [108.6809158245037]
本稿では,3次元VRスケッチを条件として行う3次元形状生成ネットワークを提案する。
スケッチは初心者がアートトレーニングなしで作成していると仮定する。
本手法は,オリジナルスケッチの構造に整合した複数の3次元形状を生成する。
論文 参考訳(メタデータ) (2023-06-19T10:27:24Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - 3D Shape Reconstruction from Free-Hand Sketches [42.15888734492648]
歪みのない線図からの3次元再構成では大きな進歩があったが、フリーハンドスケッチから3次元形状を再構築する努力はほとんど行われていない。
インタラクティブデザインやVR/ARゲームといった3D関連アプリケーションにおけるスケッチのパワー向上を目指す。
フリーハンドスケッチ3D再構成の大きな課題は、トレーニングデータ不足とフリーハンドスケッチの多様性にある。
論文 参考訳(メタデータ) (2020-06-17T07:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。