論文の概要: Privacy Preserving Ordinal-Meta Learning with VLMs for Fine-Grained Fruit Quality Prediction
- arxiv url: http://arxiv.org/abs/2511.01449v1
- Date: Mon, 03 Nov 2025 11:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.230353
- Title: Privacy Preserving Ordinal-Meta Learning with VLMs for Fine-Grained Fruit Quality Prediction
- Title(参考訳): 微粒果樹品質予測のためのVLMを用いた正規メタ学習のためのプライバシ保護
- Authors: Riddhi Jain, Manasi Patwardhan, Aayush Mishra, Parijat Deshpande, Beena Rai,
- Abstract要約: より小さなビジョン言語モデルを学習するためのモデル非依存型正規メタラーニング(MAOML)アルゴリズムを提案する。
本手法は,全果実の平均92.71%の産業標準精度を実現する。
- 参考スコア(独自算出の注目度): 9.69201376823211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To effectively manage the wastage of perishable fruits, it is crucial to accurately predict their freshness or shelf life using non-invasive methods that rely on visual data. In this regard, deep learning techniques can offer a viable solution. However, obtaining fine-grained fruit freshness labels from experts is costly, leading to a scarcity of data. Closed proprietary Vision Language Models (VLMs), such as Gemini, have demonstrated strong performance in fruit freshness detection task in both zero-shot and few-shot settings. Nonetheless, food retail organizations are unable to utilize these proprietary models due to concerns related to data privacy, while existing open-source VLMs yield sub-optimal performance for the task. Fine-tuning these open-source models with limited data fails to achieve the performance levels of proprietary models. In this work, we introduce a Model-Agnostic Ordinal Meta-Learning (MAOML) algorithm, designed to train smaller VLMs. This approach utilizes meta-learning to address data sparsity and leverages label ordinality, thereby achieving state-of-the-art performance in the fruit freshness classification task under both zero-shot and few-shot settings. Our method achieves an industry-standard accuracy of 92.71%, averaged across all fruits. Keywords: Fruit Quality Prediction, Vision Language Models, Meta Learning, Ordinal Regression
- Abstract(参考訳): 果肉の洗浄を効果的に管理するためには、視覚データに依存する非侵襲的な方法を用いて、鮮度や棚の寿命を正確に予測することが重要である。
この点において、ディープラーニング技術は実行可能なソリューションを提供することができる。
しかし、専門家からきめ細かい果物の鮮度ラベルを取得するのはコストがかかるため、データの不足につながる。
Geminiのようなクローズドプロプライエタリなビジョン言語モデル(VLM)は、ゼロショットと少数ショットの両方の設定において、果物の鮮度検出タスクにおいて強力なパフォーマンスを示している。
それでも、食品小売企業は、データプライバシに関する懸念から、これらのプロプライエタリなモデルを利用できない。
限られたデータでこれらのオープンソースモデルを微調整しても、プロプライエタリなモデルのパフォーマンスレベルを達成できない。
本研究では,より小さなVLMを学習するためのモデル非依存型正規メタラーニング(MAOML)アルゴリズムを提案する。
このアプローチはメタラーニングを利用してデータの空間性に対処し、ラベルの順序性を活用することにより、ゼロショットと少数ショットの両方の設定の下で、果物の鮮度分類タスクにおける最先端のパフォーマンスを達成する。
本手法は,全果実の平均92.71%の産業標準精度を実現する。
キーワード:果物の品質予測、視覚言語モデル、メタ学習、通常回帰
関連論文リスト
- Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning [9.42887167048224]
マシン・アンラーニング(英: Machine unlearning)は、トレーニングデータのサブセット(ターゲットセット)の影響を、完全なリトレーニングなしでモデルから排除する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
我々は,大規模言語モデルに対する自己完結型非学習手法であるダイレクトトークン最適化(DTO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T18:05:06Z) - Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - MetaFruit Meets Foundation Models: Leveraging a Comprehensive Multi-Fruit Dataset for Advancing Agricultural Foundation Models [10.11552909915055]
今回紹介するMetaFruitは,4,248のイメージと248,015のラベル付きインスタンスからなる,公開可能な最大規模のマルチクラスフルーツデータセットである。
本研究では, 先進的ビジョン基礎モデル(VFM)を応用したオープンセット果実検出システムを提案する。
論文 参考訳(メタデータ) (2024-05-14T00:13:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。