論文の概要: FoMo4Wheat: Toward reliable crop vision foundation models with globally curated data
- arxiv url: http://arxiv.org/abs/2509.06907v1
- Date: Mon, 08 Sep 2025 17:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.284826
- Title: FoMo4Wheat: Toward reliable crop vision foundation models with globally curated data
- Title(参考訳): FoMo4Wheat:グローバルにキュレートされたデータを用いた信頼性の高い作物ビジョン基盤モデルを目指して
- Authors: Bing Han, Chen Zhu, Dong Han, Rui Yu, Songliang Cao, Jianhui Wu, Scott Chapman, Zijian Wang, Bangyou Zheng, Wei Guo, Marie Weiss, Benoit de Solan, Andreas Hund, Lukas Roth, Kirchgessner Norbert, Andrea Visioni, Yufeng Ge, Wenjuan Li, Alexis Comar, Dong Jiang, Dejun Han, Fred Baret, Yanfeng Ding, Hao Lu, Shouyang Liu,
- Abstract要約: 本稿では,FoMo4Wheatについて紹介する。
このコムギ特有の事前訓練は、コムギに頑丈で、他の作物や雑草に移動可能な表現をもたらす。
- 参考スコア(独自算出の注目度): 16.598899500051946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-driven field monitoring is central to digital agriculture, yet models built on general-domain pretrained backbones often fail to generalize across tasks, owing to the interaction of fine, variable canopy structures with fluctuating field conditions. We present FoMo4Wheat, one of the first crop-domain vision foundation model pretrained with self-supervision on ImAg4Wheat, the largest and most diverse wheat image dataset to date (2.5 million high-resolution images collected over a decade at 30 global sites, spanning >2,000 genotypes and >500 environmental conditions). This wheat-specific pretraining yields representations that are robust for wheat and transferable to other crops and weeds. Across ten in-field vision tasks at canopy and organ levels, FoMo4Wheat models consistently outperform state-of-the-art models pretrained on general-domain dataset. These results demonstrate the value of crop-specific foundation models for reliable in-field perception and chart a path toward a universal crop foundation model with cross-species and cross-task capabilities. FoMo4Wheat models and the ImAg4Wheat dataset are publicly available online: https://github.com/PheniX-Lab/FoMo4Wheat and https://huggingface.co/PheniX-Lab/FoMo4Wheat. The demonstration website is: https://fomo4wheat.phenix-lab.com/.
- Abstract(参考訳): ビジョン駆動型フィールドモニタリングはデジタル農業の中心であるが、汎用ドメインで事前訓練されたバックボーン上に構築されたモデルは、細かな可変天蓋構造と変動するフィールド条件との相互作用のため、タスク全体にわたって一般化することができないことが多い。
現在までに最大かつ多種多様な小麦画像データセットであるImAg4Wheatの自己監督で事前訓練された最初の作物ドメインビジョン基盤モデルであるFoMo4Wheatについて紹介する(25万枚の高解像度画像が30のグローバルな場所で収集され、2000のジェノタイプと500の環境条件にまたがっている)。
このコムギ特有の事前訓練は、コムギに頑丈で、他の作物や雑草に移動可能な表現をもたらす。
キャノピーとオルガンレベルでの10のフィールドビジョンタスクの中で、FoMo4Wheatモデルは、一般ドメインデータセットで事前訓練された最先端モデルよりも一貫して優れています。
これらの結果は,作物固有の基盤モデルの価値を示すとともに,クロスタイプとクロスタスク機能を備えた普遍的作物基盤モデルへの道筋を示すものである。
FoMo4WheatモデルとImAg4Wheatデータセットはオンラインで公開されている: https://github.com/PheniX-Lab/FoMo4Wheatとhttps://huggingface.co/PheniX-Lab/FoMo4Wheat。
デモサイトは、https://fomo4wheat.phenix-lab.com/。
関連論文リスト
- On the Generalizability of Foundation Models for Crop Type Mapping [8.346555291145767]
自己教師付き学習を用いて事前訓練された基礎モデルは、強力な伝達学習能力を示している。
SSL4EO-S12, SatlasPretrain, ImageNetの3つの一般的なEO基盤モデルを, 5つの作物分類データセットで評価した。
論文 参考訳(メタデータ) (2024-09-14T14:43:57Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - Empirical Study of PEFT techniques for Winter Wheat Segmentation [6.110856077714895]
本研究は,SOTA小麦作モニタリングモデルを用いて,地域間および年外流通の一般化の実現可能性を探究する。
我々は,冬期小麦畑の分断に対処するためにSOTA TSViTモデルを適応させることに重点を置いている。
PEFT技術を用いて,TSViTアーキテクチャ全体の0.7%のパラメータのみをトレーニングしながら,完全な微調整手法を用いて達成した手法に匹敵する顕著な結果を得た。
論文 参考訳(メタデータ) (2023-10-03T06:42:28Z) - HarvestNet: A Dataset for Detecting Smallholder Farming Activity Using
Harvest Piles and Remote Sensing [50.4506590177605]
HarvestNetは、2020-2023年のエチオピアのティグレイとアムハラの農場の存在をマッピングするためのデータセットである。
本研究は,多くの小作システムの特徴ある収穫杭の検出に基づく新しい手法を提案する。
本研究は, 農作物のリモートセンシングが, 食品の安全地帯において, よりタイムリーかつ正確な農地評価に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:03:28Z) - End-to-end deep learning for directly estimating grape yield from
ground-based imagery [53.086864957064876]
本研究は, ブドウ畑の収量推定に深層学習と併用した近位画像の応用を実証する。
オブジェクト検出、CNN回帰、トランスフォーマーモデルという3つのモデルアーキテクチャがテストされた。
本研究は,ブドウの収量予測における近位画像と深層学習の適用性を示した。
論文 参考訳(メタデータ) (2022-08-04T01:34:46Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - WheatNet: A Lightweight Convolutional Neural Network for High-throughput
Image-based Wheat Head Detection and Counting [12.735055892742647]
本研究では,小麦頭数を正確にかつ効率的に計算し,意思決定のためのリアルタイムデータ収集を支援する新しいディープラーニングフレームワークを提案する。
モデルコムギ網とよばれ,小麦畑の幅広い環境条件において,我々のアプローチが頑健かつ正確であることを実証する。
提案手法は, 小麦頭部計数タスクにおけるMAEとRMSEの3.85と5.19をそれぞれ達成し, 他の最先端手法に比べてパラメータが有意に少ない。
論文 参考訳(メタデータ) (2021-03-17T02:38:58Z) - Agriculture-Vision: A Large Aerial Image Database for Agricultural
Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。
各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。
農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文 参考訳(メタデータ) (2020-01-05T20:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。