論文の概要: VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
- arxiv url: http://arxiv.org/abs/2504.13365v1
- Date: Thu, 17 Apr 2025 22:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:01:56.387046
- Title: VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
- Title(参考訳): VLLFL:スマート農業のためのビジョンランゲージモデルに基づく軽量フェデレーション学習フレームワーク
- Authors: Long Li, Jiajia Li, Dong Chen, Lina Pu, Haibo Yao, Yanbo Huang,
- Abstract要約: 視覚言語モデルに基づく軽量フェデレーション学習フレームワークVLLFLを提案する。
ビジョン言語モデル(VLM)の一般化とコンテキスト認識検出機能を活用し、フェデレーション学習のプライバシー保護性を活用する。
VLLFLはVLMの性能を14.53%改善し、通信オーバーヘッドを99.3%削減した。
- 参考スコア(独自算出の注目度): 12.468660942565792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern smart agriculture, object detection plays a crucial role by enabling automation, precision farming, and monitoring of resources. From identifying crop health and pest infestations to optimizing harvesting processes, accurate object detection enhances both productivity and sustainability. However, training object detection models often requires large-scale data collection and raises privacy concerns, particularly when sensitive agricultural data is distributed across farms. To address these challenges, we propose VLLFL, a vision-language model-based lightweight federated learning framework (VLLFL). It harnesses the generalization and context-aware detection capabilities of the vision-language model (VLM) and leverages the privacy-preserving nature of federated learning. By training a compact prompt generator to boost the performance of the VLM deployed across different farms, VLLFL preserves privacy while reducing communication overhead. Experimental results demonstrate that VLLFL achieves 14.53% improvement in the performance of VLM while reducing 99.3% communication overhead. Spanning tasks from identifying a wide variety of fruits to detecting harmful animals in agriculture, the proposed framework offers an efficient, scalable, and privacy-preserving solution specifically tailored to agricultural applications.
- Abstract(参考訳): 現代のスマート農業において、オブジェクト検出は、自動化、精密農業、資源の監視を可能にすることで重要な役割を担っている。
作物の健康と害虫の感染の特定から収穫プロセスの最適化に至るまで、正確な物体検出は生産性と持続可能性の両方を高める。
しかしながら、オブジェクト検出モデルのトレーニングには大規模なデータ収集が必要であり、特に農作物に機密データを分散する場合にプライバシー上の懸念が生じる。
これらの課題に対処するために、視覚言語モデルに基づく軽量連合学習フレームワークであるVLLFLを提案する。
ビジョン言語モデル(VLM)の一般化とコンテキスト認識検出機能を活用し、フェデレーション学習のプライバシー保護性を活用する。
異なる農場に展開するVLMの性能を高めるために、コンパクトなプロンプトジェネレータを訓練することにより、VLLFLは通信オーバーヘッドを減らしながらプライバシを保存する。
VLLFLは、99.3%の通信オーバヘッドを低減しつつ、VLMの性能を14.53%向上させることを示した。
さまざまな果物の特定から、農業における有害動物の検出に至るまで、このフレームワークは、農業用途に特化して、効率的でスケーラブルでプライバシー保護のソリューションを提供する。
関連論文リスト
- Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings [0.0]
提案システムは,エッジデバイスへの展開に最適化された高度なオブジェクト検出,分類,セグメンテーションモデルを統合する。
本研究は, 精度, 計算効率, 一般化能力に着目し, 各種最先端モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-23T06:48:50Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Leveraging Vision Language Models for Specialized Agricultural Tasks [19.7240633020344]
本稿では,植物ストレス表現におけるビジョン言語モデルの能力を評価するためのベンチマークであるAgEvalを紹介する。
本研究は,ドメイン固有のタスクに対して汎用的なVLMをどのように活用できるかを,いくつかの注釈付き例で検討する。
以上の結果から,VLMの特殊タスクへの適応性は,F1スコアが46.24%から73.37%に向上した。
論文 参考訳(メタデータ) (2024-07-29T00:39:51Z) - CDFL: Efficient Federated Human Activity Recognition using Contrastive Learning and Deep Clustering [12.472038137777474]
HAR(Human Activity Recognition)は、多様なセンサーからのデータを介し、人間の行動の自動化とインテリジェントな識別に不可欠である。
中央サーバー上のデータを集約し、集中処理を行うことによる従来の機械学習アプローチは、メモリ集約であり、プライバシの懸念を高める。
本研究は,画像ベースHARのための効率的なフェデレーション学習フレームワークCDFLを提案する。
論文 参考訳(メタデータ) (2024-07-17T03:17:53Z) - SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエクション、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験により、SPA-VLデータセット上のアライメント技術でトレーニングされたモデルは、コア機能を維持しながら、無害性と有用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-17T18:57:37Z) - Self-Supervised Backbone Framework for Diverse Agricultural Vision Tasks [0.3683202928838613]
農業におけるコンピュータビジョンは、農業をデータ駆動で正確で持続可能な産業に変えるために、ゲームを変える。
ディープラーニングは農業のビジョンに力を与えて、膨大な複雑な視覚データを分析するが、大きな注釈付きデータセットの可用性に大きく依存している。
本研究では,ResNet-50のバックボーンを実世界の農地画像の大規模データセット上に事前学習するための,コントラスト学習手法であるSimCLRを用いた軽量フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-22T14:46:51Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。