論文の概要: SPROUT: A Scalable Diffusion Foundation Model for Agricultural Vision
- arxiv url: http://arxiv.org/abs/2603.27519v1
- Date: Sun, 29 Mar 2026 04:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.99884
- Title: SPROUT: A Scalable Diffusion Foundation Model for Agricultural Vision
- Title(参考訳): SPROUT:農業ビジョンのためのスケーラブル拡散基盤モデル
- Authors: Shuai Xiang, Wei Guo, James Burridge, Shouyang Liu, Hao Lu, Tokihiro Fukatsu,
- Abstract要約: 大規模未ラベルデータで事前訓練されたビジョンファンデーションモデル(VFM)は、一般的なコンピュータビジョンタスクにおいて顕著な成功を収めた。
SPROUT$$S$calable $P$lant $R$epresentation model via $O$pen-field $U$nsupervised $T$raining, is a multi-crop, multi-task agricultural foundation model trained via diffusion denoising。
- 参考スコア(独自算出の注目度): 9.97076567386076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Foundation Models (VFM) pre-trained on large-scale unlabeled data have achieved remarkable success on general computer vision tasks, yet typically suffer from significant domain gaps when applied to agriculture. In this context, we introduce $SPROUT$ ($S$calable $P$lant $R$epresentation model via $O$pen-field $U$nsupervised $T$raining), a multi-crop, multi-task agricultural foundation model trained via diffusion denoising. SPROUT leverages a VAE-free Pixel-space Diffusion Transformer to learn rich, structure-aware representations through denoising and enabling efficient end-to-end training. We pre-train SPROUT on a curated dataset of 2.6 million high-quality agricultural images spanning diverse crops, growth stages, and environments. Extensive experiments demonstrate that SPROUT consistently outperforms state-of-the-art web-pretrained and agricultural foundation models across a wide range of downstream tasks, while requiring substantially lower pre-training cost. The code and model are available at https://github.com/UTokyo-FieldPhenomics-Lab/SPROUT.
- Abstract(参考訳): 大規模未ラベルデータで事前訓練されたビジョンファウンデーションモデル(VFM)は、一般的なコンピュータビジョンタスクにおいて顕著な成功を収めた。
この文脈では、拡散認知により訓練されたマルチクロップ・マルチタスク農業基盤モデルである$SPROUT$$S$calable $P$lant $R$epresentation model via $O$pen-field $U$nsupervised $T$rainingを紹介する。
SPROUT は VAE フリーの Pixel-space Diffusion Transformer を利用して,Denoising と効率的なエンドツーエンドトレーニングの実現を通じて,リッチで構造対応の表現を学習する。
SPROUTは、様々な作物、成長段階、環境にまたがる260万の高品質の農業画像の収集されたデータセットを事前訓練する。
大規模な実験により、SPROUTは様々な下流タスクにおいて、最先端のWeb事前訓練および農業基盤モデルより一貫して優れており、事前訓練コストはかなり低いことが示されている。
コードとモデルはhttps://github.com/UTokyo-FieldPhenomics-Lab/SPROUTで公開されている。
関連論文リスト
- SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization [47.38380084735716]
大規模な画像テキストペアで事前訓練された視覚教師付きモデル(VLM)は、顕著なゼロ/フェーショット性能を示した。
知識蒸留(KD)は、VLM能力を伝達するための自然な枠組みを提供するが、監督と蒸留の損失の間の勾配の衝突に悩まされる。
本稿では,異なる信号に対して2つの予測ヘッドを導入するDual-Head Optimization (DHO)を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - LENS: Large Pre-trained Transformer for Exploring Financial Time Series Regularities [3.475989206546412]
金融時系列の事前学習モデルである textbfLENS を提案する。
textbfLENSは、慎重に構築されたモデルアーキテクチャを通じて、金融システムの複雑さを効果的にキャプチャする。
我々の研究は、高雑音環境下で事前学習された時系列モデルの開発に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Vision Transformers For Weeds and Crops Classification Of High
Resolution UAV Images [3.1083892213758104]
ビジョントランスフォーマー(ViT)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を達成することができる。
実験の結果,ラベル付きトレーニングデータでは,最新のCNNモデルと比較して,ViTモデルの方が優れていた。
論文 参考訳(メタデータ) (2021-09-06T19:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。