論文の概要: Domain-Specific Self-Supervised Pre-training for Agricultural Disease Classification: A Hierarchical Vision Transformer Study
- arxiv url: http://arxiv.org/abs/2601.11612v1
- Date: Fri, 09 Jan 2026 12:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.79103
- Title: Domain-Specific Self-Supervised Pre-training for Agricultural Disease Classification: A Hierarchical Vision Transformer Study
- Title(参考訳): 農業病分類のためのドメイン特化自己監督型事前訓練:階層型視覚変換器の研究
- Authors: Arnav S. Sonavane,
- Abstract要約: ドメイン固有の自己指導型事前学習が階層型視覚変換器を用いた農業病の分類に及ぼす影響について検討した。
鍵となる発見は、わずか3,000のラベルのない農業用画像でSimCLRの事前トレーニングが、+4.57%の精度向上をもたらすことである。
Swin-Base の収率 +4.08% に対して同じ事前トレーニングを ViT-Base +4.20% に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the impact of domain-specific self-supervised pre-training on agricultural disease classification using hierarchical vision transformers. Our key finding is that SimCLR pre-training on just 3,000 unlabeled agricultural images provides a +4.57% accuracy improvement--exceeding the +3.70% gain from hierarchical architecture design. Critically, we show this SSL benefit is architecture-agnostic: applying the same pre-training to Swin-Base yields +4.08%, to ViT-Base +4.20%, confirming practitioners should prioritize domain data collection over architectural choices. Using HierarchicalViT (HVT), a Swin-style hierarchical transformer, we evaluate on three datasets: Cotton Leaf Disease (7 classes, 90.24%), PlantVillage (38 classes, 96.3%), and PlantDoc (27 classes, 87.1%). At matched parameter counts, HVT-Base (78M) achieves 88.91% vs. Swin-Base (88M) at 87.23%, a +1.68% improvement. For deployment reliability, we report calibration analysis showing HVT achieves 3.56% ECE (1.52% after temperature scaling). Code: https://github.com/w2sg-arnav/HierarchicalViT
- Abstract(参考訳): ドメイン固有の自己指導型事前学習が階層型視覚変換器を用いた農業病の分類に及ぼす影響について検討した。
我々の重要な発見は、SimCLRがわずか3,000のラベルのない農業用画像で事前トレーニングを行うことで、階層的アーキテクチャ設計から+3.70%の利益を出し、+4.57%の精度で改善できるということです。
Swin-Baseの収率+4.08%、ViT-Base+4.20%に同じ事前トレーニングを適用すると、実践者はアーキテクチャ上の選択よりもドメインデータ収集を優先すべきである。
HierarchicalViT (HVT) を用いて, 綿葉病 (7クラス, 90.24%), PlantVillage (38クラス, 96.3%), PlantDoc (27クラス, 87.1%) の3つのデータセットを評価した。
一致したパラメータ数では、HVT-Base (78M) は88.91%、Swin-Base (88M) は87.23%、改善は1.68%である。
展開信頼性について,HVTが3.56%ECE(温度スケーリング後1.52%)を達成したことを示すキャリブレーション解析を報告した。
コード:https://github.com/w2sg-arnav/HierarchicalViT
関連論文リスト
- Uncertainty-Aware Domain Adaptation for Vitiligo Segmentation in Clinical Photographs [4.19421520851419]
治療反応の経時的モニタリングには, 日常的な臨床写真における精査範囲の正確な定量化が不可欠である。
我々は,ISIC 2019データセット上でのドメイン適応型事前学習とROIに基づく二重タスク損失を組み合わせ,背景雑音を抑制するデータ効率のトレーニング戦略を提案する。
本フレームワークは破滅的障害をゼロに高い信頼性を示し,診断可能なエントロピーマップを提供し,臨床検査のための曖昧な領域を同定する。
論文 参考訳(メタデータ) (2025-12-12T18:56:21Z) - A Neural Affinity Framework for Abstract Reasoning: Diagnosing the Compositional Gap in Transformer Architectures via Procedural Task Taxonomy [0.0]
ルールベースのコード分析によって97.5%の精度で検証された、全てのタスクの最初の9つのカテゴリの分類を提示する。
我々は、CNNを生のグリッドピクセルで訓練することにより、分類の視覚的コヒーレンスを証明する(S3の95.24%、全体的な36.25%、3.3倍の確率)。
カリキュラム分析の結果,トランスフォーマーに対する神経親和性が低いタスクの35.3%が明らかにされた。
論文 参考訳(メタデータ) (2025-12-08T02:46:00Z) - When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evaluation Across Retinal Imaging Tasks [0.0]
プレトレーニングが普遍的なメリット(5.18-18.41%の改善)を提供することを示す。
コンパクト汎用モデルは、ほとんどの網膜分類タスクに対してほぼ最適性能を提供する。
論文 参考訳(メタデータ) (2025-11-27T00:59:21Z) - Validating Vision Transformers for Otoscopy: Performance and Data-Leakage Effects [42.465094107111646]
本研究では、耳疾患の診断精度を高めるために、視覚トランスモデル、特にスウィントランスモデルの有効性を評価する。
この研究はチリ大学臨床病院の耳鼻咽喉科の実際のデータセットを利用した。
論文 参考訳(メタデータ) (2025-11-06T23:20:37Z) - Mobile-Friendly Deep Learning for Plant Disease Detection: A Lightweight CNN Benchmark Across 101 Classes of 33 Crops [39.58317527488534]
植物病は世界の食料安全保障にとって大きな脅威である。
我々は、33の作物で101の植物病を正確に分類できるモバイルフレンドリーなソリューションを開発した。
論文 参考訳(メタデータ) (2025-08-14T16:43:27Z) - Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis [41.09752906121257]
本稿では,大規模マルチモーダル知識グラフ(MMKG)と生成AIを組み合わせた統合食品ドメインQAフレームワークを提案する。
MMKGは、13,000のレシピ、13,000の材料、140,000のリレーション、14,000のイメージをリンクします。40のテンプレートとLLaVA/DeepSeek拡張を使って4万のQAペアを生成します。
論文 参考訳(メタデータ) (2025-07-09T05:59:06Z) - DExNet: Combining Observations of Domain Adapted Critics for Leaf Disease Classification with Limited Data [3.156688657641748]
本研究では,植物病の分類のためのドメイン適応エキスパートネットワーク(DExNet)を提案する。
まず、最先端のCNNベースのアーキテクチャである9つの'批評家'から、機能の埋め込みを'オブザーブレーション'として抽出する。
提案したパイプラインは、PlantVillageデータセットから10種類のトマト葉のイメージに基づいて評価される。
論文 参考訳(メタデータ) (2025-06-22T21:15:54Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。