論文の概要: SketchPlan: Diffusion Based Drone Planning From Human Sketches
- arxiv url: http://arxiv.org/abs/2510.03545v1
- Date: Fri, 03 Oct 2025 22:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.105551
- Title: SketchPlan: Diffusion Based Drone Planning From Human Sketches
- Title(参考訳): SketchPlan:人足による拡散型ドローン計画
- Authors: Sixten Norelius, Aaron O. Feldman, Mac Schwager,
- Abstract要約: 本研究では,深度画像上の2次元手描きスケッチを解釈し,ドローンナビゲーションのための3次元飛行経路を生成する拡散型プランナを提案する。
SketchPlanは、人間のスケッチを投影された2DパスにマッピングするSketchAdapterと、2Dプロジェクションから3Dトラジェクトリを推測する拡散モデルDiffPathと、第1の人視深度画像の2つのコンポーネントで構成されている。
本モデルでは,ゼロショット・シム・トゥ・リアル・トランスファーを実現し,これまで見られなかった実環境において,正確かつ安全な飛行経路を生成する。
- 参考スコア(独自算出の注目度): 7.6870716086914435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SketchPlan, a diffusion-based planner that interprets 2D hand-drawn sketches over depth images to generate 3D flight paths for drone navigation. SketchPlan comprises two components: a SketchAdapter that learns to map the human sketches to projected 2D paths, and DiffPath, a diffusion model that infers 3D trajectories from 2D projections and a first person view depth image. Our model achieves zero-shot sim-to-real transfer, generating accurate and safe flight paths in previously unseen real-world environments. To train the model, we build a synthetic dataset of 32k flight paths using a diverse set of photorealistic 3D Gaussian Splatting scenes. We automatically label the data by computing 2D projections of the 3D flight paths onto the camera plane, and use this to train the DiffPath diffusion model. However, since real human 2D sketches differ significantly from ideal 2D projections, we additionally label 872 of the 3D flight paths with real human sketches and use this to train the SketchAdapter to infer the 2D projection from the human sketch. We demonstrate SketchPlan's effectiveness in both simulated and real-world experiments, and show through ablations that training on a mix of human labeled and auto-labeled data together with a modular design significantly boosts its capabilities to correctly interpret human intent and infer 3D paths. In real-world drone tests, SketchPlan achieved 100\% success in low/medium clutter and 40\% in unseen high-clutter environments, outperforming key ablations by 20-60\% in task completion.
- Abstract(参考訳): 深度画像上の2次元手描きスケッチを解釈し,ドローンナビゲーションのための3次元飛行経路を生成する拡散型プランナであるSketchPlanを提案する。
SketchPlanは、人間のスケッチを投影された2DパスにマッピングするSketchAdapterと、2Dプロジェクションから3Dトラジェクトリを推測する拡散モデルDiffPathと、第1の人視深度画像の2つのコンポーネントで構成されている。
我々のモデルはゼロショット・シム・トゥ・リアル・トランスファーを実現し、これまで見えなかった現実世界の環境において、正確かつ安全な飛行経路を生成する。
このモデルをトレーニングするために,フォトリアリスティックな3Dガウス撮影シーンの多種多様なセットを用いて,32kの飛行経路の合成データセットを構築した。
カメラ平面上の3次元飛行経路の2次元投影を計算し、DiffPath拡散モデルのトレーニングに使用する。
しかし、実際の人間の2Dスケッチは理想的な2Dプロジェクションと大きく異なるため、実際の人間のスケッチで3Dの飛行経路の852をラベル付けし、これをSketchAdapterのトレーニングに使用して、人間のスケッチから2Dプロジェクションを推測する。
シミュレーションと実世界の両方の実験におけるSketchPlanの有効性を実証し、人間のラベル付きデータと自動ラベル付きデータの混合によるトレーニングとモジュール設計により、人間の意図を正しく解釈し、3Dパスを推測する能力を大幅に向上させることを示す。
実世界のドローンテストでは、SketchPlanは低濃度のクラッタで100\%、目に見えないハイクラッタ環境で40\%を達成し、タスク完了時のキーアブレーションを20-60\%上回った。
関連論文リスト
- Sketch2PoseNet: Efficient and Generalized Sketch to 3D Human Pose Prediction [34.19632657034878]
多様なスケッチスタイルから人間のポーズや形状を推定するためのエンドツーエンドのデータ駆動フレームワークを提案する。
本フレームワークは,既存の2次元ポーズ検出器とスケッチ特徴抽出のための生成拡散先行情報と,効率的な2次元ポーズ推定のためのフィードフォワードニューラルネットワークを組み合わせる。
提案手法は,スケッチ・トゥ・プレイス作業における推定精度と速度の両方において,従来のモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2025-10-30T07:13:46Z) - ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - GroundUp: Rapid Sketch-Based 3D City Massing [8.0366666733521]
スケッチが一般的なツールであるアーリーステージの都市デザインに焦点を当てる。
私たちは、2Dスケッチと3Dモデルを簡単に切り替えることで、アーキテクトのアイデアの迅速な修正を支援することを目的としています。
論文 参考訳(メタデータ) (2024-07-17T16:59:29Z) - Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering [17.918603435615335]
3Dスケッチは、オブジェクトやシーンの3D形状と構造を視覚的に表現するために広く使用されている。
Diff3DSは、ビュー一貫性のある3Dスケッチを生成するための、新しい差別化可能なフレームワークである。
我々のフレームワークは3Dスケッチと画像のドメインをブリッジし、3Dスケッチのエンドツーエンド最適化を実現する。
論文 参考訳(メタデータ) (2024-05-24T07:48:14Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D VR Sketch Guided 3D Shape Prototyping and Exploration [108.6809158245037]
本稿では,3次元VRスケッチを条件として行う3次元形状生成ネットワークを提案する。
スケッチは初心者がアートトレーニングなしで作成していると仮定する。
本手法は,オリジナルスケッチの構造に整合した複数の3次元形状を生成する。
論文 参考訳(メタデータ) (2023-06-19T10:27:24Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - 3D Shape Reconstruction from Free-Hand Sketches [42.15888734492648]
歪みのない線図からの3次元再構成では大きな進歩があったが、フリーハンドスケッチから3次元形状を再構築する努力はほとんど行われていない。
インタラクティブデザインやVR/ARゲームといった3D関連アプリケーションにおけるスケッチのパワー向上を目指す。
フリーハンドスケッチ3D再構成の大きな課題は、トレーニングデータ不足とフリーハンドスケッチの多様性にある。
論文 参考訳(メタデータ) (2020-06-17T07:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。