論文の概要: AgriCLIP: Adapting CLIP for Agriculture and Livestock via Domain-Specialized Cross-Model Alignment
- arxiv url: http://arxiv.org/abs/2410.01407v1
- Date: Wed, 2 Oct 2024 10:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:19:25.799965
- Title: AgriCLIP: Adapting CLIP for Agriculture and Livestock via Domain-Specialized Cross-Model Alignment
- Title(参考訳): AgriCLIP: ドメイン特化クロスモデルアライメントによる農業・畜産用CLIPの適応
- Authors: Umair Nawaz, Muhammad Awais, Hanan Gani, Muzammal Naseer, Fahad Khan, Salman Khan, Rao Muhammad Anwer,
- Abstract要約: AgriCLIPは、農業と家畜の分野に特化したビジョン言語基盤モデルである。
私たちのALiveデータセットは、作物、家畜、漁業をカバーしています。
AgriCLIPフレームワークは、平均ゼロショット分類精度で7.8%の絶対ゲインを達成する。
- 参考スコア(独自算出の注目度): 35.35466045639057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capitalizing on vast amount of image-text data, large-scale vision-language pre-training has demonstrated remarkable zero-shot capabilities and has been utilized in several applications. However, models trained on general everyday web-crawled data often exhibit sub-optimal performance for specialized domains, likely due to domain shift. Recent works have tackled this problem for some domains (e.g., healthcare) by constructing domain-specialized image-text data. However, constructing a dedicated large-scale image-text dataset for sustainable area of agriculture and livestock is still open to research. Further, this domain desires fine-grained feature learning due to the subtle nature of the downstream tasks (e.g, nutrient deficiency detection, livestock breed classification). To address this we present AgriCLIP, a vision-language foundational model dedicated to the domain of agriculture and livestock. First, we propose a large-scale dataset, named ALive, that leverages customized prompt generation strategy to overcome the scarcity of expert annotations. Our ALive dataset covers crops, livestock, and fishery, with around 600,000 image-text pairs. Second, we propose a training pipeline that integrates both contrastive and self-supervised learning to learn both global semantic and local fine-grained domain-specialized features. Experiments on diverse set of 20 downstream tasks demonstrate the effectiveness of AgriCLIP framework, achieving an absolute gain of 7.8\% in terms of average zero-shot classification accuracy, over the standard CLIP adaptation via domain-specialized ALive dataset. Our ALive dataset and code can be accessible at \href{https://github.com/umair1221/AgriCLIP/tree/main}{Github}.
- Abstract(参考訳): 大量の画像テキストデータを活用することで、大規模視覚言語による事前訓練は目覚ましいゼロショット機能を示し、いくつかのアプリケーションで利用されてきた。
しかし、一般的な日々のWebクローリングデータに基づいてトレーニングされたモデルは、ドメインシフトのため、しばしば特定のドメインに対するサブ最適性能を示す。
最近の研究は、ドメイン特化画像テキストデータを構築することで、いくつかのドメイン(例えば医療)でこの問題に対処している。
しかし, 農業・畜産の持続可能な領域を対象とした大規模画像テキストデータセットの構築は, 依然として研究が進められている。
さらに、下流作業の微妙な性質(栄養欠乏の検出、家畜品種分類など)により、細粒度の特徴学習が望まれている。
これを解決するために,農業・畜産分野に特化したビジョン言語基盤モデルであるAgriCLIPを紹介する。
まず,専門家アノテーションの不足を克服するために,カスタマイズしたプロンプト生成戦略を活用する大規模データセットALiveを提案する。
私たちのALiveデータセットは、作物、家畜、漁業をカバーしています。
第2に、コントラスト学習と自己教師学習を統合し、グローバルセマンティクスと局所的なきめ細かいドメイン特化特徴を学習する訓練パイプラインを提案する。
さまざまな20のダウンストリームタスクの実験は、AgriCLIPフレームワークの有効性を示し、ドメイン特化ALiveデータセットによる標準CLIP適応よりも平均ゼロショット分類精度で7.8\%の絶対的な向上を達成した。
私たちのALiveデータセットとコードは、 \href{https://github.com/umair1221/AgriCLIP/tree/main}{Github}でアクセスできます。
関連論文リスト
- Precision at Scale: Domain-Specific Datasets On-Demand [3.5900418884504095]
Precision at Scale (PaS)は、オンデマンドでドメイン固有のデータセットを自動生成するための新しい方法である。
PaSパイプラインは、最先端の基盤モデルと生成モデルを活用して、任意のドメインに属するイメージのコレクションを作成する。
自動生成されたドメイン固有データセットは、ImageNet-1kやImageNet-21kのような大規模教師付きデータセットよりも、事前トレーニングが優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T19:17:42Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Enlisting 3D Crop Models and GANs for More Data Efficient and
Generalizable Fruit Detection [0.0]
本稿では,合成3次元作物モデルドメインから実世界の作物ドメインへの農業画像生成手法を提案する。
本手法は, 果実の位置と形状を保存するために, 意味的に制約されたGAN (generative adversarial network) を用いる。
ブドウ品種検出タスクにおける増分訓練実験により,本手法から生成した画像がドメインプロセスを大幅に高速化できることが判明した。
論文 参考訳(メタデータ) (2021-08-30T16:11:59Z) - Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation [78.28390172958643]
マルチターゲットドメイン適応(MTDA)における複数のドメインシフトを軽減するのに役立つ2つの重要な側面を同定する。
本論文では,二重分類器ヘッドを用いたCGCT(Curriculum Graph Co-Teaching)を提案する。そのうちの1つがグラフ畳み込みネットワーク(GCN)である。
ドメインラベルが利用可能になると、まずより簡単なターゲットドメインに適応し、続いて難しいドメインに適応する逐次適応戦略であるDomain-Aware Curriculum Learning (DCL)を提案する。
論文 参考訳(メタデータ) (2021-04-01T23:41:41Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation
Method for Semantic Segmentation [97.8552697905657]
このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法である。
本稿では,グローバルな視点とローカルな視点の両方から分布の整合性を促進できるASS(Alleviating Semantic-level Shift)を提案する。
GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。
論文 参考訳(メタデータ) (2020-04-02T03:25:05Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。