論文の概要: CA-Cut: Crop-Aligned Cutout for Data Augmentation to Learn More Robust Under-Canopy Navigation
- arxiv url: http://arxiv.org/abs/2507.17727v2
- Date: Thu, 24 Jul 2025 13:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.885474
- Title: CA-Cut: Crop-Aligned Cutout for Data Augmentation to Learn More Robust Under-Canopy Navigation
- Title(参考訳): CA-Cut:Crop-Aligned Cutout for Data Augmentation for more Robust Under-Canopy Navigation
- Authors: Robel Mamo, Taeyeong Choi,
- Abstract要約: 最先端のビジュアルアンダーキャノピーナビゲーション手法は、ディープラーニングに基づく知覚モデルを用いて設計されている。
実世界の現場展開において信頼性を確保するためには、大量のトレーニングデータが必要である。
そこで本研究では,農作物列の周辺に空間的に分布する入力画像のランダム領域をマスキングする,いわゆるCrop-Aligned Cutout(CA-Cut)を提案する。
- 参考スコア(独自算出の注目度): 2.693342141713236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art visual under-canopy navigation methods are designed with deep learning-based perception models to distinguish traversable space from crop rows. While these models have demonstrated successful performance, they require large amounts of training data to ensure reliability in real-world field deployment. However, data collection is costly, demanding significant human resources for in-field sampling and annotation. To address this challenge, various data augmentation techniques are commonly employed during model training, such as color jittering, Gaussian blur, and horizontal flip, to diversify training data and enhance model robustness. In this paper, we hypothesize that utilizing only these augmentation techniques may lead to suboptimal performance, particularly in complex under-canopy environments with frequent occlusions, debris, and non-uniform spacing of crops. Instead, we propose a novel augmentation method, so-called Crop-Aligned Cutout (CA-Cut) which masks random regions out in input images that are spatially distributed around crop rows on the sides to encourage trained models to capture high-level contextual features even when fine-grained information is obstructed. Our extensive experiments with a public cornfield dataset demonstrate that masking-based augmentations are effective for simulating occlusions and significantly improving robustness in semantic keypoint predictions for visual navigation. In particular, we show that biasing the mask distribution toward crop rows in CA-Cut is critical for enhancing both prediction accuracy and generalizability across diverse environments achieving up to a 36.9% reduction in prediction error. In addition, we conduct ablation studies to determine the number of masks, the size of each mask, and the spatial distribution of masks to maximize overall performance.
- Abstract(参考訳): 最先端のビジュアルアンダーキャノピーナビゲーション手法は、学習に基づく認識モデルを用いて設計され、移動可能な空間と作物列を区別する。
これらのモデルは性能を実証しているが、実世界の現場での信頼性を確保するには大量のトレーニングデータが必要である。
しかし、データ収集は高価であり、フィールド内サンプリングやアノテーションのための重要な人材を必要としている。
この課題に対処するために、カラージッタリング、ガウスアンブラー、水平フリップなどのモデルトレーニングにおいて、トレーニングデータを多様化し、モデルの堅牢性を高めるために、様々なデータ拡張技術が一般的に使用される。
本稿では,これらの拡張技術のみを利用することで,特に,多量のオクルージョン,破砕物,不均一な作物の放散を伴う複雑なアンダーキャノピー環境において,最適な性能が得られると仮定する。
そこで本研究では,入力画像からランダム領域をマスマスキングする手法であるCrop-Aligned Cutout(CA-Cut)を提案する。
公的なコーンフィールドデータセットを用いた広範な実験により、マスキングに基づく拡張は、閉塞をシミュレートし、視覚ナビゲーションのためのセマンティックキーポイント予測におけるロバスト性を大幅に改善することを示す。
特に,CA-Cutの収穫行に対するマスク分布の偏りは,予測誤差を最大36.9%減少させるような様々な環境における予測精度と一般化可能性の向上に重要であることを示す。
さらに, マスク数, マスクの大きさ, マスクの空間分布を推定し, 全体的な性能を最大化するためにアブレーション研究を行う。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes [19.987151025364067]
本稿では,信頼度の高い群集カウントモデルをトレーニングするための,新しい半教師付き手法を提案する。
モデルの本質的な'サブタイズ'能力を育み、領域の数を正確に見積もることができる。
提案手法は,従来の手法を,挑戦的ベンチマークにおいて大きな差で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-16T12:42:43Z) - Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders [10.097983222759884]
表面仮面オートエンコーダ(sMAE)と表面仮面オートエンコーダ(MAE)
これらのモデルは、皮質発達と構造関数の強力な潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。
以上の結果から, (v)sMAE事前学習モデルでは, 複数のタスクにおける表現型予測性能が約26%向上し,スクラッチからトレーニングしたモデルに対してより高速な収束が得られた。
論文 参考訳(メタデータ) (2023-08-10T10:01:56Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Generative models-based data labeling for deep networks regression:
application to seed maturity estimation from UAV multispectral images [3.6868861317674524]
種子の成熟度モニタリングは、気候変動とより制限的な慣行による農業における課題の増加である。
従来の手法は、フィールドでの限られたサンプリングと実験室での分析に基づいている。
マルチスペクトルUAV画像を用いたパセリ種子の成熟度推定手法の提案と,自動ラベリングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-09T09:06:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。