論文の概要: Transformer-Based Spatio-Temporal Association of Apple Fruitlets
- arxiv url: http://arxiv.org/abs/2503.03200v1
- Date: Wed, 05 Mar 2025 05:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:20.766359
- Title: Transformer-Based Spatio-Temporal Association of Apple Fruitlets
- Title(参考訳): アップル果実のトランスフォーマーによる時空間結合
- Authors: Harry Freeman, George Kantor,
- Abstract要約: 異なる日と異なるカメラのポーズから収集したステレオ画像にリンゴ果実を関連付けるトランスフォーマーベースの手法を提案する。
市販リンゴ果樹園で収集したデータからF1スコア92.4%を達成できることを実証した。
- 参考スコア(独自算出の注目度): 5.455744338342197
- License:
- Abstract: In this paper, we present a transformer-based method to spatio-temporally associate apple fruitlets in stereo-images collected on different days and from different camera poses. State-of-the-art association methods in agriculture are dedicated towards matching larger crops using either high-resolution point clouds or temporally stable features, which are both difficult to obtain for smaller fruit in the field. To address these challenges, we propose a transformer-based architecture that encodes the shape and position of each fruitlet, and propagates and refines these features through a series of transformer encoder layers with alternating self and cross-attention. We demonstrate that our method is able to achieve an F1-score of 92.4% on data collected in a commercial apple orchard and outperforms all baselines and ablations.
- Abstract(参考訳): 本稿では,異なる日と異なるカメラポーズから収集したステレオ画像中のリンゴ果汁を時空間的に関連付けるトランスフォーマーを用いた手法を提案する。
農業における最先端のアソシエーション手法は、高解像度の点雲または時間的に安定な特徴を用いて、より大きな作物をマッチングすることを目的としている。
これらの課題に対処するために,各フルーツレットの形状と位置を符号化するトランスフォーマーアーキテクチャを提案する。
本手法は,リンゴ果樹園で収集したデータに対して92.4%のF1スコアを達成できることを示す。
関連論文リスト
- Few-Shot Fruit Segmentation via Transfer Learning [4.616529139444651]
移動学習を用いた内野果実のセマンティックセマンティックセマンティックセマンティクスフレームワークを開発した。
都会のシーン解析における同様の成功を機に,我々は特別事前学習を提案する。
プレトレーニングモデルでは, 地上に落ちてきた果実と木上の果実の区別が可能であることを示す。
論文 参考訳(メタデータ) (2024-05-04T04:05:59Z) - Fusion-Driven Tree Reconstruction and Fruit Localization: Advancing Precision in Agriculture [2.338903291171288]
本研究では,RGB画像,LiDAR,IMUデータの相乗効果を利用して複雑な木復元を行う手法を提案する。
制御された環境と実際の桃果樹園の両方で実験が行われた。
論文 参考訳(メタデータ) (2023-10-23T17:44:59Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Panoptic Mapping with Fruit Completion and Pose Estimation for
Horticultural Robots [33.21287030243106]
植物や果実を高解像度でモニタリングすることは、農業の未来において重要な役割を担っている。
正確な3D情報は、自律収穫から正確な収量推定まで、農業における多様なロボット応用への道を開くことができる。
移動ロボットによって構築された3次元多次元マップにおいて,果実の完全な3次元形状とそのポーズを共同で推定する問題に対処する。
論文 参考訳(メタデータ) (2023-03-15T20:41:24Z) - Autonomous Apple Fruitlet Sizing and Growth Rate Tracking using Computer
Vision [6.303112417588331]
本稿では,リンゴ果実の大きさと生育速度をコンピュータビジョンで測定する手法を提案する。
成長率を得ることの現在の習慣は、数日間にわたって果物の粒度を記録するためにキャリパーを使うことである。
提案システムは,現行手法の3.5%以内において,6倍の速度向上を達成できることを示す。
論文 参考訳(メタデータ) (2022-12-03T01:59:46Z) - Fusion of Satellite Images and Weather Data with Transformer Networks
for Downy Mildew Disease Detection [3.6868861317674524]
作物病は農業生産量と品質に大きな影響を及ぼす。
本稿では,3つのトランスを用いたデータ融合を実現するための新しい手法を提案する。
このアーキテクチャは、視覚変換器と2つの変換器エンコーダという3つの主要コンポーネントで構築されており、画像と気象の両方を融合させることができる。
論文 参考訳(メタデータ) (2022-09-06T19:55:16Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。