論文の概要: High-throughput 3D shape completion of potato tubers on a harvester
- arxiv url: http://arxiv.org/abs/2407.21341v3
- Date: Tue, 12 Nov 2024 09:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:58.211332
- Title: High-throughput 3D shape completion of potato tubers on a harvester
- Title(参考訳): 収穫機におけるジャガイモ塊茎の高出力3次元形状仕上げ
- Authors: Pieter M. Blok, Federico Magistri, Cyrill Stachniss, Haozhou Wang, James Burridge, Wei Guo,
- Abstract要約: CoRe++は、RGB-D画像から3D形状を完成させることのできる3D形状補完ネットワークである。
CoRe++は高速かつ正確で、オペレーショナルトリガーに実装できる。
- 参考スコア(独自算出の注目度): 24.52522554337409
- License:
- Abstract: Potato yield is an important metric for farmers to further optimize their cultivation practices. Potato yield can be estimated on a harvester using an RGB-D camera that can estimate the three-dimensional (3D) volume of individual potato tubers. A challenge, however, is that the 3D shape derived from RGB-D images is only partially completed, underestimating the actual volume. To address this issue, we developed a 3D shape completion network, called CoRe++, which can complete the 3D shape from RGB-D images. CoRe++ is a deep learning network that consists of a convolutional encoder and a decoder. The encoder compresses RGB-D images into latent vectors that are used by the decoder to complete the 3D shape using the deep signed distance field network (DeepSDF). To evaluate our CoRe++ network, we collected partial and complete 3D point clouds of 339 potato tubers on an operational harvester in Japan. On the 1425 RGB-D images in the test set (representing 51 unique potato tubers), our network achieved a completion accuracy of 2.8 mm on average. For volumetric estimation, the root mean squared error (RMSE) was 22.6 ml, and this was better than the RMSE of the linear regression (31.1 ml) and the base model (36.9 ml). We found that the RMSE can be further reduced to 18.2 ml when performing the 3D shape completion in the center of the RGB-D image. With an average 3D shape completion time of 10 milliseconds per tuber, we can conclude that CoRe++ is both fast and accurate enough to be implemented on an operational harvester for high-throughput potato yield estimation. CoRe++'s high-throughput and accurate processing allows it to be applied to other tuber, fruit and vegetable crops, thereby enabling versatile, accurate and real-time yield monitoring in precision agriculture. Our code, network weights and dataset are publicly available at https://github.com/UTokyo-FieldPhenomics-Lab/corepp.git.
- Abstract(参考訳): ジャガイモの収穫は農夫にとって栽培の慣行をさらに最適化する重要な指標である。
ジャガイモの3次元(3D)体積を推定できるRGB-Dカメラを用いて収穫機上でのポテト収量を推定することができる。
しかし、RGB-D画像から得られる3次元形状は部分的にしか完成せず、実際の体積を過小評価していない。
この問題に対処するため,我々は,RGB-D画像から3次元形状を完結できるCoRe++という3次元形状補完ネットワークを開発した。
CoRe++は、畳み込みエンコーダとデコーダで構成されるディープラーニングネットワークである。
エンコーダは、深部符号距離場ネットワーク(DeepSDF)を用いて、デコーダが使用する遅延ベクトルにRGB-D画像を圧縮して3次元形状を完成させる。
筆者らはCoRe++ネットワークの評価のために, ジャガイモ339羽の3D点群の部分的および完全な3D点群を日本の収穫機で収集した。
テストセットの1425枚のRGB-D画像(51個のポテトポテトポテトポテトポテトポテトを表現)では,ネットワークの完成精度は平均2.8mmに達した。
体積推定では、根平均二乗誤差(RMSE)は22.6mlであり、線形回帰(31.1ml)とベースモデル(36.9ml)のRMSEよりも優れていた。
RGB-D画像の中心で3次元形状完了を行う場合,RMSEはさらに18.2mlまで低減できることがわかった。
高出力ジャガイモ収量推定のための操作式収穫機において,CoRe++の3次元形状完了時間は平均10ミリ秒であり,高速かつ高精度である。
CoRe++の高スループットで正確な処理により、他の塊茎、果物、野菜の作物にも適用できるため、精密農業における多目的で正確でリアルタイムな収量モニタリングが可能になる。
私たちのコード、ネットワークウェイト、データセットはhttps://github.com/UTokyo-FieldPhenomics-Lab/corepp.git.comで公開されています。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction [12.408610403423559]
本稿では,3次元オブジェクト再構成と新しいビュー合成のためのDIG3Dという新しい手法を提案する。
提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。
提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。
論文 参考訳(メタデータ) (2024-04-25T04:18:59Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - RGB-D Salient Object Detection via 3D Convolutional Neural Networks [19.20231385522917]
3D畳み込みニューラルネットワークによるRGB-D SODへの対処を試みます。
提案したRD3Dは、エンコーダ段階での事前融合とデコーダ段階での深部融合を目的としている。
RD3Dは4つの重要な評価指標から,14の最先端RGB-D SODアプローチに対して良好に機能することを示す。
論文 参考訳(メタデータ) (2021-01-25T17:03:02Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - Frustum VoxNet for 3D object detection from RGB-D or Depth images [1.14219428942199]
RGB-Dまたは深度のみの点群からの新しい3次元物体検出システムについて述べる。
我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。
我々のシステムの主な新規性は、酸化するフラストラムのどの部分(3D提案)を決定づけることである。
論文 参考訳(メタデータ) (2019-10-12T04:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。