論文の概要: Surgical fine-tuning for Grape Bunch Segmentation under Visual Domain
Shifts
- arxiv url: http://arxiv.org/abs/2307.00837v1
- Date: Mon, 3 Jul 2023 08:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:58:25.768528
- Title: Surgical fine-tuning for Grape Bunch Segmentation under Visual Domain
Shifts
- Title(参考訳): 視覚領域シフト下でのグレープ束セグメンテーションの外科的微調整
- Authors: Agnese Chiatti, Riccardo Bertoglio, Nico Catalano, Matteo Gatti,
Matteo Matteucci
- Abstract要約: 我々は、ブドウ畑の移動ロボットが収集した画像からブドウの群れを分割する難しい作業に焦点をあてる。
本稿では,特定のモデル層のみを選択的にチューニングすることで,事前学習したディープラーニングモデルを新たに収集したブドウのイメージに適応させる方法について述べる。
- 参考スコア(独自算出の注目度): 6.489759672413373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile robots will play a crucial role in the transition towards sustainable
agriculture. To autonomously and effectively monitor the state of plants,
robots ought to be equipped with visual perception capabilities that are robust
to the rapid changes that characterise agricultural settings. In this paper, we
focus on the challenging task of segmenting grape bunches from images collected
by mobile robots in vineyards. In this context, we present the first study that
applies surgical fine-tuning to instance segmentation tasks. We show how
selectively tuning only specific model layers can support the adaptation of
pre-trained Deep Learning models to newly-collected grape images that introduce
visual domain shifts, while also substantially reducing the number of tuned
parameters.
- Abstract(参考訳): 移動ロボットは持続可能な農業への移行において重要な役割を果たす。
植物の状態を自律的かつ効果的に監視するためには、ロボットは農業環境を特徴付ける急激な変化に対して堅牢な視覚的知覚能力を備える必要がある。
本稿では,ブドウ畑の移動ロボットが収集した画像からブドウの塊を分割する課題に焦点を当てた。
そこで本研究では,手術的微調整をインスタンスセグメンテーションタスクに適用する最初の研究を行う。
本稿では,特定のモデル層のみを選択的に調整することで,視覚領域シフトを導入した新しいグレープ画像への事前学習モデルの適応を支援するとともに,調整されたパラメータの数を大幅に削減できることを示す。
関連論文リスト
- AdaCropFollow: Self-Supervised Online Adaptation for Visual Under-Canopy Navigation [31.214318150001947]
アンダーキャノピー農業ロボットは、精密なモニタリング、スプレー、雑草、植物操作などの様々な応用を可能にする。
本稿では,視覚的基礎モデル,幾何学的事前,擬似ラベリングを用いて意味キーポイント表現を適応するための自己教師付きオンライン適応手法を提案する。
これにより、人間による介入を必要とせずに、畑や作物をまたがるアンダーキャノピーロボットの完全な自律的な行追尾が可能になる。
論文 参考訳(メタデータ) (2024-10-16T09:52:38Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Real-time object detection and robotic manipulation for agriculture
using a YOLO-based learning approach [8.482182765640022]
本研究では、畳み込みニューラルネットワーク(CNN)の2つの異なるアーキテクチャを組み合わせた新しいフレームワークを提案する。
シミュレーション環境でのクロップ画像は、ランダムな回転、収穫、明るさ、コントラスト調整を受け、データセット生成のための拡張画像を生成する。
提案手法は,ロボット操作の把握位置を明らかにするために,視覚幾何学グループモデルを用いて取得した画像データを利用する。
論文 参考訳(メタデータ) (2024-01-28T22:30:50Z) - Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。
しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。
本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T14:28:29Z) - Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping [59.0626764544669]
本研究では,ブドウの葉のイメージを意味的にセグメント化するためにDeep Learning法を用いて,葉の表現型自動検出システムを開発した。
私たちの研究は、成長や開発のような動的な特性を捉え定量化できる植物ライフサイクルのモニタリングに寄与します。
論文 参考訳(メタデータ) (2022-10-24T14:37:09Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Vision Transformers For Weeds and Crops Classification Of High
Resolution UAV Images [3.1083892213758104]
ビジョントランスフォーマー(ViT)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を達成することができる。
実験の結果,ラベル付きトレーニングデータでは,最新のCNNモデルと比較して,ViTモデルの方が優れていた。
論文 参考訳(メタデータ) (2021-09-06T19:58:54Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。