Fugu-MT 論文翻訳(概要): Development and evaluation of automated localisation and reconstruction of all fruits on tomato plants in a greenhouse based on multi-view perception and 3D multi-object tracking

論文の概要: Development and evaluation of automated localisation and reconstruction of all fruits on tomato plants in a greenhouse based on multi-view perception and 3D multi-object tracking

arxiv url: http://arxiv.org/abs/2211.02760v3
Date: Tue, 28 Nov 2023 11:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 17:14:46.883029
Title: Development and evaluation of automated localisation and reconstruction of all fruits on tomato plants in a greenhouse based on multi-view perception and 3D multi-object tracking
Title（参考訳）: マルチビュー知覚と3次元多目的追跡に基づく温室トマトにおける全果実の自動局在と全果実の再構築に関する研究
Authors: David Rapado Rincon, Eldert J. van Henten, Gert Kootstra
Abstract要約: 本稿では,閉鎖されたアグロフード環境におけるジェネリック表現構築のための新しいアプローチを提案する。これは検出対象ごとに部分点雲を生成する検出アルゴリズムに基づいており、次いで3次元多目的追跡アルゴリズムが続く。表象の精度を実環境において評価し,トマトにおけるトマトの表現と局在を成功させた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to accurately represent and localise relevant objects is essential for robots to carry out tasks effectively. Traditional approaches, where robots simply capture an image, process that image to take an action, and then forget the information, have proven to struggle in the presence of occlusions. Methods using multi-view perception, which have the potential to address some of these problems, require a world model that guides the collection, integration and extraction of information from multiple viewpoints. Furthermore, constructing a generic representation that can be applied in various environments and tasks is a difficult challenge. In this paper, a novel approach for building generic representations in occluded agro-food environments using multi-view perception and 3D multi-object tracking is introduced. The method is based on a detection algorithm that generates partial point clouds for each detected object, followed by a 3D multi-object tracking algorithm that updates the representation over time. The accuracy of the representation was evaluated in a real-world environment, where successful representation and localisation of tomatoes in tomato plants were achieved, despite high levels of occlusion, with the total count of tomatoes estimated with a maximum error of 5.08% and the tomatoes tracked with an accuracy up to 71.47%. Novel tracking metrics were introduced, demonstrating that valuable insight into the errors in localising and representing the fruits can be provided by their use. This approach presents a novel solution for building representations in occluded agro-food environments, demonstrating potential to enable robots to perform tasks effectively in these challenging environments.
Abstract（参考訳）: ロボットがタスクを効果的に実行するためには、関連オブジェクトを正確に表現し、ローカライズする能力が不可欠である。従来のアプローチでは、ロボットは単に画像をキャプチャし、その画像を処理してアクションを取り、その情報を忘れる。これらの問題に対処する可能性を持つ多視点知覚を用いた手法は、複数の視点から情報の収集、統合、抽出を導く世界モデルを必要とする。さらに,様々な環境やタスクに適用可能な汎用表現の構築も困難である。本稿では,多視点認識と3次元多物体追跡を用いた閉鎖されたアグロフード環境における汎用表現構築手法を提案する。この方法は、検出対象毎に部分的点雲を生成する検出アルゴリズムと、時間とともに表現を更新する3dマルチオブジェクト追跡アルゴリズムに基づいている。表象の精度は実環境において評価され, トマト植物におけるトマトの表現と局在は, 高い包接度にもかかわらず達成され, トマトの総数5.08%, トマトは71.47%と推定された。新たな追跡指標を導入し、果実のローカライズおよび表現におけるエラーに対する貴重な洞察が、それらの使用によって提供できることを実証した。このアプローチは、閉鎖されたアグロフード環境における表現を構築するための新しいソリューションを示し、ロボットがこれらの困難な環境で効果的にタスクを実行できる可能性を示す。

関連論文リスト

Towards an Accurate and Effective Robot Vision (The Problem of Topological Localization for Mobile Robots) [0.43064121494080315]
本研究は,ロボットプラットフォームに搭載された視点カラーカメラで取得した画像のみを用いて,オフィス環境におけるトポロジカルローカライゼーションに対処する。テキスト検索にヒントを得たColor Histograms, SIFT, ASIFT, RGB-SIFT, Bag-of-Visual-Wordsアプローチなど,最先端のビジュアル記述子の評価を行った。
論文参考訳（メタデータ） (2025-09-05T09:14:59Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Counting Stacked Objects [57.68870743111393]
本稿では,タスクを2つの相補的なサブプロブレムに分解する新しい3Dカウント手法を提案する。幾何学的再構成と深層学習に基づく深度解析を組み合わせることで,コンテナ内の同一物体を正確にカウントすることができる。多様な実世界および大規模合成データセット上での3Dカウントパイプラインの検証を行う。
論文参考訳（メタデータ） (2024-11-28T13:51:16Z)
Markerless Multi-view 3D Human Pose Estimation: a survey [0.49157446832511503]
3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。 3Dポーズの再構築に関わるすべての課題を解決する方法はまだない。さらに、高い精度の3Dポーズを計算コストで迅速に推測できるアプローチを開発するためには、さらなる研究が必要である。
論文参考訳（メタデータ） (2024-07-04T10:44:35Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文参考訳（メタデータ） (2024-03-28T11:12:33Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Panoptic Mapping with Fruit Completion and Pose Estimation for Horticultural Robots [33.21287030243106]
植物や果実を高解像度でモニタリングすることは、農業の未来において重要な役割を担っている。正確な3D情報は、自律収穫から正確な収量推定まで、農業における多様なロボット応用への道を開くことができる。移動ロボットによって構築された3次元多次元マップにおいて,果実の完全な3次元形状とそのポーズを共同で推定する問題に対処する。
論文参考訳（メタデータ） (2023-03-15T20:41:24Z)
RREx-BoT: Remote Referring Expressions with a Bag of Tricks [19.036557405184656]
本研究では,未観測環境における物体の探索に視覚言語スコアリングモデルを用いる方法を示す。私たちは、我々のモデルを現実世界のTurtleBotプラットフォーム上でデモし、このアプローチの単純さと有用性を強調します。本分析では,3次元座標と文脈の利用から,視覚言語モデルから大規模3次元検索空間への一般化に至るまで,この課題を達成する上で不可欠な「トリックの袋」を概説する。
論文参考訳（メタデータ） (2023-01-30T02:19:19Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)
Uncertainty Guided Policy for Active Robotic 3D Reconstruction using Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文参考訳（メタデータ） (2022-09-17T21:28:57Z)
Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文参考訳（メタデータ） (2022-05-04T10:29:10Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。