論文の概要: WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management
- arxiv url: http://arxiv.org/abs/2506.06084v1
- Date: Fri, 06 Jun 2025 13:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.492839
- Title: WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management
- Title(参考訳): WisWheat: 小麦管理のための3段階のビジョンランゲージデータセット
- Authors: Bowen Yuan, Selena Song, Javier Fernandez, Yadan Luo, Mahsa Baktashmotlagh, Zijian Wang,
- Abstract要約: VLM(Vision-Language Models)は、スケーラブルでデータ駆動型の管理サポートを実現するための有望なソリューションとして登場した。
小麦管理タスクにおけるVLM性能を向上させるために,3層構造を有する小麦特異的データセットWisWheatを提案する。
- 参考スコア(独自算出の注目度): 14.66440944434394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wheat management strategies play a critical role in determining yield. Traditional management decisions often rely on labour-intensive expert inspections, which are expensive, subjective and difficult to scale. Recently, Vision-Language Models (VLMs) have emerged as a promising solution to enable scalable, data-driven management support. However, due to a lack of domain-specific knowledge, directly applying VLMs to wheat management tasks results in poor quantification and reasoning capabilities, ultimately producing vague or even misleading management recommendations. In response, we propose WisWheat, a wheat-specific dataset with a three-layered design to enhance VLM performance on wheat management tasks: (1) a foundational pretraining dataset of 47,871 image-caption pairs for coarsely adapting VLMs to wheat morphology; (2) a quantitative dataset comprising 7,263 VQA-style image-question-answer triplets for quantitative trait measuring tasks; and (3) an Instruction Fine-tuning dataset with 4,888 samples targeting biotic and abiotic stress diagnosis and management plan for different phenological stages. Extensive experimental results demonstrate that fine-tuning open-source VLMs (e.g., Qwen2.5 7B) on our dataset leads to significant performance improvements. Specifically, the Qwen2.5 VL 7B fine-tuned on our wheat instruction dataset achieves accuracy scores of 79.2% and 84.6% on wheat stress and growth stage conversation tasks respectively, surpassing even general-purpose commercial models such as GPT-4o by a margin of 11.9% and 34.6%.
- Abstract(参考訳): 小麦経営戦略は収量を決定する上で重要な役割を担っている。
伝統的な経営決定は、しばしば労働集約的な専門家検査に依存し、それは高価で主観的でスケールが難しい。
近年、VLM(Vision-Language Models)が、スケーラブルでデータ駆動型の管理サポートを実現するための有望なソリューションとして登場した。
しかし、ドメイン固有の知識が不足しているため、小麦管理タスクに直接VLMを適用すると、定量化と推論能力が低下し、究極的には曖昧あるいは誤解を招く管理勧告が生み出される。
そこで本研究では,小麦経営タスクにおけるVLM性能を高めるための3層構造を持つ小麦特異的データセットであるWisWheatを提案する。(1)VLMを小麦形態に粗い適応するための47,871対のイメージキャプチャーデータセット,(2)量的特性測定タスクのための7,263VQAスタイルのイメージクエスト・アンサートレットからなる定量的データセット,(3)抗生物質と微生物のストレス診断と管理を対象とする4,888のサンプルを用いた命令微調整データセットである。
大規模な実験結果から、データセット上の微調整のオープンソースVLM(例えば、Qwen2.5 7B)は、大幅なパフォーマンス向上をもたらすことが示されている。
具体的には、小麦指導データセットに微調整したQwen2.5 VL 7Bは、小麦のストレスおよび成長段階の会話タスクにおいて、それぞれ79.2%と84.6%の精度スコアを達成し、GPT-4oのような汎用商業モデルでさえ11.9%、34.6%のマージンで上回っている。
関連論文リスト
- Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - Design and Implementation of FourCropNet: A CNN-Based System for Efficient Multi-Crop Disease Detection and Management [3.4161054453684705]
本研究では,複数の作物の病原体を検出するための新しいディープラーニングモデルであるFourCropNetを提案する。
FourCropNetは、Grapeの99.7%、Cornの99.5%、組み合わせたデータセットの95.3%の最高精度を達成した。
論文 参考訳(メタデータ) (2025-03-11T12:00:56Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - MM-GEN: Enhancing Task Performance Through Targeted Multimodal Data Curation [31.21163360113923]
MM-Genはタスク固有の高品質な合成テキストを生成するスケーラブルな手法である。
MM-Genによって生成されたデータによる微調整VLMは、大幅な性能向上をもたらす。
人為的なキャプションデータと比較すると、MM-Genは最大1.6倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-07T21:55:56Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文 参考訳(メタデータ) (2024-05-11T12:33:46Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。