論文の概要: Enhancing annotations for 5D apple pose estimation through 3D Gaussian Splatting (3DGS)
- arxiv url: http://arxiv.org/abs/2512.20148v1
- Date: Tue, 23 Dec 2025 08:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.798057
- Title: Enhancing annotations for 5D apple pose estimation through 3D Gaussian Splatting (3DGS)
- Title(参考訳): 3次元ガウススプラッティングによる5次元リンゴポーズ推定のためのアノテーションの強化(3DGS)
- Authors: Robert van de Ven, Trim Bresilla, Bram Nelissen, Ard Nieuwenhuizen, Eldert J. van Henten, Gert Kootstra,
- Abstract要約: オーチャードシーンの再構築,アノテーションの簡易化,画像へのアノテーションの自動投影,ポーズ推定手法の訓練と評価を行うために,3次元ガウススプラッティングからなる新しいパイプラインを提案する。
その結果, 果実の閉塞度が増すにつれて, 果実の最大位置推定値が低下することが判明した。
また, テストしたポーズ推定法では, リンゴの配向推定を正しく学習できないことがわかった。
- 参考スコア(独自算出の注目度): 1.8472148461613156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating tasks in orchards is challenging because of the large amount of variation in the environment and occlusions. One of the challenges is apple pose estimation, where key points, such as the calyx, are often occluded. Recently developed pose estimation methods no longer rely on these key points, but still require them for annotations, making annotating challenging and time-consuming. Due to the abovementioned occlusions, there can be conflicting and missing annotations of the same fruit between different images. Novel 3D reconstruction methods can be used to simplify annotating and enlarge datasets. We propose a novel pipeline consisting of 3D Gaussian Splatting to reconstruct an orchard scene, simplified annotations, automated projection of the annotations to images, and the training and evaluation of a pose estimation method. Using our pipeline, 105 manual annotations were required to obtain 28,191 training labels, a reduction of 99.6%. Experimental results indicated that training with labels of fruits that are $\leq95\%$ occluded resulted in the best performance, with a neutral F1 score of 0.927 on the original images and 0.970 on the rendered images. Adjusting the size of the training dataset had small effects on the model performance in terms of F1 score and pose estimation accuracy. It was found that the least occluded fruits had the best position estimation, which worsened as the fruits became more occluded. It was also found that the tested pose estimation method was unable to correctly learn the orientation estimation of apples.
- Abstract(参考訳): 果樹園におけるタスクの自動化は、環境や排他物に多くのバリエーションがあるため困難である。
課題の1つはリンゴポーズ推定(英語版)であり、カリックスのようなキーポイントはしばしば無視される。
最近開発されたポーズ推定手法は、これらのキーポイントをもはや依存していないが、アノテーションにはいまだにそれらを必要とするため、アノテートが難しく、時間がかかります。
上記のオクルージョンのため、異なる画像の間に同じ果実の矛盾や欠落がある可能性がある。
新たな3D再構成手法は、注釈付きデータセットの簡易化と拡張に利用できる。
オーチャードシーンの再構築,アノテーションの簡易化,画像へのアノテーションの自動投影,ポーズ推定手法の訓練と評価を行うために,3次元ガウススプラッティングからなる新しいパイプラインを提案する。
パイプラインを使用すると、28,191のトレーニングラベルを取得するために105のマニュアルアノテーションが必要となり、99.6%が削減された。
実験結果から, 果実のラベルが$\leq95\%/occludedであった場合, 原画像では中性F1スコアが0.927, レンダリング画像では0.970であった。
トレーニングデータセットのサイズを調整することは、F1スコアと推定精度の点でモデル性能に小さな影響を与えました。
その結果, 果実の閉塞度が増すにつれて, 果実の最大位置推定値が低下することが判明した。
また, テストしたポーズ推定法では, リンゴの配向推定を正しく学習できないことがわかった。
関連論文リスト
- iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Apple Counting using Convolutional Neural Networks [22.504279159923765]
果樹園のような現実の環境でのイメージから、正確で信頼性の高い果実や野菜の数を推定することは、難しい問題である。
コンボリューショナルニューラルネットワークを訓練することにより,画像から果実を数えることを多クラス分類問題として定式化し,その問題を解決する。
当社のネットワークは、最大94%の精度で、4つのデータセットのうち3つでパフォーマンスを向上しています。
論文 参考訳(メタデータ) (2022-08-24T14:13:40Z) - End-to-end deep learning for directly estimating grape yield from
ground-based imagery [53.086864957064876]
本研究は, ブドウ畑の収量推定に深層学習と併用した近位画像の応用を実証する。
オブジェクト検出、CNN回帰、トランスフォーマーモデルという3つのモデルアーキテクチャがテストされた。
本研究は,ブドウの収量予測における近位画像と深層学習の適用性を示した。
論文 参考訳(メタデータ) (2022-08-04T01:34:46Z) - CPPF: Towards Robust Category-Level 9D Pose Estimation in the Wild [45.93626858034774]
カテゴリーレベルのPPF投票法は、野生における正確で堅牢で一般化可能な9Dポーズ推定を実現する。
ノイズの多い点対のサンプルを排除し、個体群から最終的な予測を生成するために、新しい粗大な投票アルゴリズムを提案する。
我々の手法は実世界のトレーニングデータと同等である。
論文 参考訳(メタデータ) (2022-03-07T01:36:22Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。