論文の概要: PAg-NeRF: Towards fast and efficient end-to-end panoptic 3D
representations for agricultural robotics
- arxiv url: http://arxiv.org/abs/2309.05339v1
- Date: Mon, 11 Sep 2023 09:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:08:41.699355
- Title: PAg-NeRF: Towards fast and efficient end-to-end panoptic 3D
representations for agricultural robotics
- Title(参考訳): PAg-NeRF:農業ロボットのための高速で効率的なパノプティカル3D表現を目指して
- Authors: Claus Smitt, Michael Halstead, Patrick Zimmer, Thomas L\"abe, Esra
Guclu, Cyrill Stachniss, Chris McCool
- Abstract要約: PAg-NeRFは3次元パノプティカルシーンの理解を可能にする新しいNeRFベースのシステムである。
本システムでは,シーン形状,フォトリアリスティックレンダリング,立体一貫したパノプティクス表現を一貫したインスタンスIDで出力することができる。
- 参考スコア(独自算出の注目度): 18.097443443286817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Precise scene understanding is key for most robot monitoring and intervention
tasks in agriculture. In this work we present PAg-NeRF which is a novel
NeRF-based system that enables 3D panoptic scene understanding. Our
representation is trained using an image sequence with noisy robot odometry
poses and automatic panoptic predictions with inconsistent IDs between frames.
Despite this noisy input, our system is able to output scene geometry,
photo-realistic renders and 3D consistent panoptic representations with
consistent instance IDs. We evaluate this novel system in a very challenging
horticultural scenario and in doing so demonstrate an end-to-end trainable
system that can make use of noisy robot poses rather than precise poses that
have to be pre-calculated. Compared to a baseline approach the peak signal to
noise ratio is improved from 21.34dB to 23.37dB while the panoptic quality
improves from 56.65% to 70.08%. Furthermore, our approach is faster and can be
tuned to improve inference time by more than a factor of 2 while being memory
efficient with approximately 12 times fewer parameters.
- Abstract(参考訳): 精密なシーン理解は、農業におけるほとんどのロボット監視および介入タスクにとって重要である。
本研究では,3次元パノプティカルシーン理解が可能な新しいNeRFシステムであるPAg-NeRFを提案する。
我々の表現は、ノイズの多いロボットのオドメトリーポーズとフレーム間の不整合IDによる自動パノプティクス予測を用いて訓練される。
このノイズの多い入力にもかかわらず、我々のシステムは、一貫したインスタンスIDでシーン幾何学、フォトリアリスティックレンダリング、および3次元一貫した汎視覚表現を出力することができる。
本システムは非常に困難な園芸シナリオで評価し,そのためには,事前に計算しなければならない正確なポーズではなく,ノイズの多いロボットポーズを活用できるエンドツーエンドの訓練可能なシステムを示す。
ベースラインアプローチと比較してピーク信号とノイズ比は21.34dbから23.37dbに改善され、パンオプティカル品質は56.65%から70.08%に向上した。
さらに,提案手法はより高速であり,約12倍のパラメータでメモリ効率を保ちながら,推論時間を2倍以上向上させるように調整できる。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations [19.914227905704102]
3Dロボットポリシーは、1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,新しい3Dデノナイジング変換器を備えたニューラルポリシーである3Dディフューザー・アクターを提案する。
現在のSOTAよりも18.1%向上したRLBenchに新たな最先端技術が設定されている。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
論文 参考訳(メタデータ) (2024-02-16T18:43:02Z) - BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
論文 参考訳(メタデータ) (2023-06-07T05:36:45Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文 参考訳(メタデータ) (2022-11-25T10:06:14Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Differentiable Point-Based Radiance Fields for Efficient View Synthesis [57.56579501055479]
本稿では,効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。
我々の手法は、トレーニングと推論の両方において、NeRFよりも最大300倍高速である。
ダイナミックなシーンでは,STNeRFよりも2桁早く,ほぼインタラクティブなレートでレンダリングを行う。
論文 参考訳(メタデータ) (2022-05-28T04:36:13Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。