論文の概要: DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing
- arxiv url: http://arxiv.org/abs/2003.03766v1
- Date: Sun, 8 Mar 2020 11:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:17:09.580999
- Title: DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing
- Title(参考訳): DFVS:Deep Flow Guided Scene Agnostic Image based Visual Servoing
- Authors: Y V S Harish, Harit Pandya, Ayush Gaud, Shreya Terupally, Sai Shankar
and K. Madhava Krishna
- Abstract要約: 既存のディープラーニングベースのビジュアルサーボアプローチは、画像間の相対カメラのポーズを後退させる。
我々は、深層ニューラルネットワークを用いて予測される視覚的特徴として光学的流れを考察する。
2cm以下と1度以下の正確な位置を維持しながら3m以上40度以上の収束性を示した。
- 参考スコア(独自算出の注目度): 11.000164408890635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning based visual servoing approaches regress the relative
camera pose between a pair of images. Therefore, they require a huge amount of
training data and sometimes fine-tuning for adaptation to a novel scene.
Furthermore, current approaches do not consider underlying geometry of the
scene and rely on direct estimation of camera pose. Thus, inaccuracies in
prediction of the camera pose, especially for distant goals, lead to a
degradation in the servoing performance. In this paper, we propose a two-fold
solution: (i) We consider optical flow as our visual features, which are
predicted using a deep neural network. (ii) These flow features are then
systematically integrated with depth estimates provided by another neural
network using interaction matrix. We further present an extensive benchmark in
a photo-realistic 3D simulation across diverse scenes to study the convergence
and generalisation of visual servoing approaches. We show convergence for over
3m and 40 degrees while maintaining precise positioning of under 2cm and 1
degree on our challenging benchmark where the existing approaches that are
unable to converge for majority of scenarios for over 1.5m and 20 degrees.
Furthermore, we also evaluate our approach for a real scenario on an aerial
robot. Our approach generalizes to novel scenarios producing precise and robust
servoing performance for 6 degrees of freedom positioning tasks with even large
camera transformations without any retraining or fine-tuning.
- Abstract(参考訳): 既存のディープラーニングベースのビジュアルサーボアプローチは、画像間の相対カメラのポーズを後退させる。
そのため、大量のトレーニングデータと、新しいシーンに適応するための微調整が必要である。
さらに、現在のアプローチでは、シーンの基本的な形状を考慮せず、カメラポーズの直接推定に依存する。
したがって、カメラポーズの予測の不正確さ、特に遠方の目標のために、サーボ性能が低下する。
本稿では,2段階の解法を提案する。
i) 深部ニューラルネットワークを用いて予測される視覚的特徴として光学的流れを考察する。
(ii)これらのフロー特徴は、相互作用行列を用いて他のニューラルネットワークが提供する深さ推定と体系的に統合される。
さらに,視覚サーボアプローチの収束と一般化を研究するため,様々な場面におけるフォトリアリスティック3次元シミュレーションの広範なベンチマークを提案する。
3m以上40度以上の収束を示すとともに,1.5m以上20度以上のシナリオに対して収束できない既存のアプローチでは,2cm以下と1度以下の正確な位置を維持している。
さらに,航空ロボットの実際のシナリオに対するアプローチについても検討した。
提案手法は,6自由度の位置決めタスクに対して,リトレーニングや微調整を伴わない,高精度で堅牢なサーボ性能を実現する新しいシナリオに一般化する。
関連論文リスト
- FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。