論文の概要: FruitEnsemble: MLLM-Guided Arbitration for Heterogeneous ensemble in Fine-Grained Fruit Recognition
- arxiv url: http://arxiv.org/abs/2605.20892v1
- Date: Wed, 20 May 2026 08:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.572948
- Title: FruitEnsemble: MLLM-Guided Arbitration for Heterogeneous ensemble in Fine-Grained Fruit Recognition
- Title(参考訳): FruitEnsemble: MLLM-Guided Arbitration for Heterogeneous mble in Fine-Grained Fruit Recognition (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: Enhui Yu, Junhui Li, Ruitong Lu, Jialu Li, Youshan Zhang,
- Abstract要約: ファインソートフルーツ分類は、農業コンピュータービジョンにおいて重要な課題であるが挑戦的な課題である。
静的単一モデルアーキテクチャの一般化限界を克服する2段階動的推論フレームワークFruitEnsembleを提案する。
我々のフレームワークは70.49%の分類精度を達成し、既存の最先端モデルより優れている。
- 参考スコア(独自算出の注目度): 18.640796746107494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained fruit classification is a critical yet challenging task in agricultural computer vision, primarily hindered by a severe shortage of high-quality datasets and the high visual similarity between classes. To address these challenges, we first constructed a comprehensive dataset comprising 306 fruit categories with 116,233 samples. Moreover, we propose FruitEnsemble, a practical two-stage dynamic inference framework designed to overcome the generalization limitations of static single-model architectures. In the first stage, FruitEnsemble employs a validation-calibrated weighted ensemble of heterogeneous backbones to generate a robust Top-3 candidate pool. To tackle difficult samples, we introduce an expert arbitration mechanism: when ensemble confidence falls below 0.6, a multimodal large language model (MLLM) is triggered to perform rigorous visual verification by integrating external botanical descriptions using Chain-of-Thought (CoT) reasoning. Furthermore, we optimized the training pipeline with a hard sample-aware joint loss. Extensive experiments demonstrate that FruitEnsemble achieves a classification accuracy of 70.49\% and outperforms existing state-of-the-art models. Our framework provides an efficient, deployment-oriented solution for real-world agricultural visual sorting and quality inspection tasks.
- Abstract(参考訳): きめ細かい果物の分類は、農業コンピュータビジョンにおいて重要な課題であり、主に高品質なデータセットの不足とクラス間の視覚的類似性によって妨げられている。
これらの課題に対処するため,我々はまず306の果実カテゴリーと116,233のサンプルからなる包括的データセットを構築した。
さらに,静的単一モデルアーキテクチャの一般化限界を克服するために設計された,実用的な2段階動的推論フレームワークであるFruitEnsembleを提案する。
第1段階では、FruitEnsembleは、不均一なバックボーンの検証校正された重み付けアンサンブルを使用して、堅牢なTop-3候補プールを生成する。
アンサンブル信頼度が0.6以下になると、マルチモーダルな大規模言語モデル(MLLM)がトリガーされ、CoT推論を用いて外部植物学的記述を統合することにより、厳密な視覚的検証を行う。
さらに,硬度サンプル認識関節損傷でトレーニングパイプラインを最適化した。
大規模な実験により、FruitEnsembleは70.49\%の分類精度を達成し、既存の最先端モデルより優れていることが示された。
我々のフレームワークは、実世界の農業の視覚的ソートと品質検査タスクに対して、効率的でデプロイ指向のソリューションを提供する。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification [45.52399819498234]
本研究は、細粒度作物病分類のための3つのモデルパラダイムの体系的比較を示す。
我々は16の作物と41の病気にまたがる111kの画像を含むベンチマークであるAgriPath-LF16を紹介する。
CNNは画像の精度が最も高いが、ドメインシフトによって劣化する。
対照的なVLMは、競合するクロスドメイン性能を持つ堅牢でパラメータ効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2026-03-08T17:28:01Z) - Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。
本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。
改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文 参考訳(メタデータ) (2025-11-18T18:50:26Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Agriculture-Vision Challenge 2024 -- The Runner-Up Solution for Agricultural Pattern Recognition via Class Balancing and Model Ensemble [20.631333392618327]
CVPR 2024の農業ビジョンチャレンジは、セマンティックセマンティックセマンティクスモデルを活用してピクセルレベルのセマンティクスセマンティクスラベルを作成することを目的としている。
本稿では,モザイクデータ拡張手法を提案する。
提案手法は,テストセットにおいて平均mIoU(mIoU)スコア0.547を達成し,この課題において第2位を確保した。
論文 参考訳(メタデータ) (2024-06-18T04:59:04Z) - Evaluation of Confidence-based Ensembling in Deep Learning Image
Classification [0.6445605125467573]
Conf-EnsembleはBoostingに適応して、モデルエラーではなくモデルの信頼性に基づいたアンサンブルを生成する。
我々は、イメージNetデータセットを用いて、画像分類のより複雑なタスクにおいて、Conf-Ensembleアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-03T16:29:22Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。