論文の概要: Newton-PnP: Real-time Visual Navigation for Autonomous Toy-Drones
- arxiv url: http://arxiv.org/abs/2203.02686v1
- Date: Sat, 5 Mar 2022 09:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:46:07.514207
- Title: Newton-PnP: Real-time Visual Navigation for Autonomous Toy-Drones
- Title(参考訳): newton-pnp:自律トイドロンのリアルタイムビジュアルナビゲーション
- Authors: Ibrahim Jubran, Fares Fares, Yuval Alfassi, Firas Ayoub, Dan Feldman
- Abstract要約: パースペクティブ・n・ポイント問題は、校正された単眼カメラと既知の3Dモデルとの相対的なポーズを推定することを目的としている。
リアルタイムに弱いIoT上で動作するアルゴリズムを提案するが、実行時間と正確性の両方を保証できる。
私たちの主な動機は、人気のDJIのTello Droneを、外部の人間/ラップトップ/センサーを使わずに、屋内環境をナビゲートする自律ドローンに変えることです。
- 参考スコア(独自算出の注目度): 15.075691719756877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Perspective-n-Point problem aims to estimate the relative pose between a
calibrated monocular camera and a known 3D model, by aligning pairs of 2D
captured image points to their corresponding 3D points in the model. We suggest
an algorithm that runs on weak IoT devices in real-time but still provides
provable theoretical guarantees for both running time and correctness. Existing
solvers provide only one of these requirements. Our main motivation was to turn
the popular DJI's Tello Drone (<90gr, <\$100) into an autonomous drone that
navigates in an indoor environment with no external human/laptop/sensor, by
simply attaching a Raspberry PI Zero (<9gr, <\$25) to it. This tiny
micro-processor takes as input a real-time video from a tiny RGB camera, and
runs our PnP solver on-board. Extensive experimental results, open source code,
and a demonstration video are included.
- Abstract(参考訳): パースペクティブ・n・ポイント問題は、2D撮像画像点対をモデル内の対応する3D点に整列させることにより、校正された単眼カメラと既知の3Dモデルとの相対的なポーズを推定することを目的としている。
我々は、弱いIoTデバイス上でリアルタイムに動作するアルゴリズムを提案するが、実行時間と正確性の両方について、証明可能な理論的保証を提供する。
既存のソルバは、これらの要件の1つしか提供しない。
私たちの主な動機は、人気のDJIのTello Drone (<90gr, <\$100)を、Raspberry PI Zero (<9gr, <\$25)を装着するだけで、外部の人間/ラップトップ/センサーなしで屋内環境を移動できる自律ドローンに変えることだった。
この小さなマイクロプロセッサは、小さなRGBカメラからリアルタイムでビデオを入力し、PnPソルバをオンボードで動かす。
大規模な実験結果、オープンソースコード、デモビデオが含まれている。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
論文 参考訳(メタデータ) (2023-06-07T05:36:45Z) - External Camera-based Mobile Robot Pose Estimation for Collaborative
Perception with Smart Edge Sensors [22.5939915003931]
本稿では,移動ロボットのポーズを多視点RGB画像を用いた静的カメラネットワークのアロセントリック座標で推定する手法を提案する。
画像はオンラインで、深層ニューラルネットワークによってスマートエッジセンサーでローカルに処理され、ロボットを検出する。
ロボットのポーズを正確に推定すると、その観察は同中心のシーンモデルに融合することができる。
論文 参考訳(メタデータ) (2023-03-07T11:03:33Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Deep Learning on Home Drone: Searching for the Optimal Architecture [54.535788447839884]
そこで我々は,Raspberry Pi Zero v2のような弱いマイクロコンピュータ上で,学習によってリアルタイムなセマンティックセマンティックセマンティクスを実行するシステムを提案する。
特にRaspberry Piの重さは16ドル(約1万2000円)以下で、クレジットカードの半分程度なので、市販のDJI Telloのおもちゃに簡単に取り付けることができます。
その結果、自律ドローンは、オンボードのモノクロRGBカメラのビデオストリームからオブジェクトをリアルタイムで検出し、分類することができる。
論文 参考訳(メタデータ) (2022-09-21T11:41:45Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Fast Autofocusing using Tiny Networks for Digital Holographic Microscopy [0.5057148335041798]
自己焦点を回帰問題としてキャストするために, ディープラーニング(DL)法を提案し, 実験および模擬ホログラム上で実験を行った。
実験により、予測焦点距離$Z_RmathrmPred$は精度1.2$mu$mで正確に推定されることが示された。
モデルは、推論毎に25ミリ秒未満の、CPU上のアート推論時間の状態に達する。
論文 参考訳(メタデータ) (2022-03-15T10:52:58Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。