論文の概要: Does Your VFM Speak Plant? The Botanical Grammar of Vision Foundation Models for Object Detection
- arxiv url: http://arxiv.org/abs/2604.09920v1
- Date: Fri, 10 Apr 2026 21:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.747616
- Title: Does Your VFM Speak Plant? The Botanical Grammar of Vision Foundation Models for Object Detection
- Title(参考訳): VFMは音を聞こえるか? 物体検出のためのボタニカル・グラマー・オブ・ビジョン・ファンデーション・モデル
- Authors: Lars Lundqvist, Earl Ranario, Hamid Kamangir, Heesup Yun, Christine Diepenbrock, Brian N. Bailey, J. Mason Earles,
- Abstract要約: 本研究では,ウシ花とポッド検出のための4つの開語彙検出器を評価する枠組みを提案する。
プロンプトを8つの軸に分解し,1要素・アット・ア・タイム解析を行い,その後に最適化を行った。
モデル特異的プロンプトを適用すると, YOLO Worldでは+0.357 mAP@0.5, 合成ウシ花データでは+0.362 mAP@0.5, OWLv2では+0.362 mAP@0.5となる。
- 参考スコア(独自算出の注目度): 6.6451417735814955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models (VFMs) offer the promise of zero-shot object detection without task-specific training data, yet their performance in complex agricultural scenes remains highly sensitive to text prompt construction. We present a systematic prompt optimization framework evaluating four open-vocabulary detectors -- YOLO World, SAM3, Grounding DINO, and OWLv2 -- for cowpea flower and pod detection across synthetic and real field imagery. We decompose prompts into eight axes and conduct one-factor-at-a-time analysis followed by combinatorial optimization, revealing that models respond divergently to prompt structure: conditions that optimize one architecture can collapse another. Applying model-specific combinatorial prompts yields substantial gains over a naive species-name baseline, including +0.357 mAP@0.5 for YOLO World and +0.362 mAP@0.5 for OWLv2 on synthetic cowpea flower data. To evaluate cross-task generalization, we use an LLM to translate the discovered axis structure to a morphologically distinct target -- cowpea pods -- and compare against prompting using the discovered optimal structures from synthetic flower data. Crucially, prompt structures optimized exclusively on synthetic data transfer effectively to real-world fields: synthetic-pipeline prompts match or exceed those discovered on labeled real data for the majority of model-object combinations (flower: 0.374 vs. 0.353 for YOLO World; pod: 0.429 vs. 0.371 for SAM3). Our findings demonstrate that prompt engineering can substantially close the gap between zero-shot VFMs and supervised detectors without requiring manual annotation, and that optimal prompts are model-specific, non-obvious, and transferable across domains.
- Abstract(参考訳): ビジョンファウンデーションモデル(VFM)は、タスク固有のトレーニングデータなしでゼロショットオブジェクト検出を約束するが、複雑な農業シーンのパフォーマンスは、テキストプロンプトの構築に非常に敏感である。
人工・実現場画像におけるウシ花とポッド検出のための4つの開語彙検出器(YOLO World, SAM3, Grounding DINO, OWLv2)を系統的に評価する。
我々はプロンプトを8つの軸に分解し、1-factor-at-a-time解析を行い、その後に組合せ最適化を行い、モデルがプロンプト構造に異なる応答をすることを明らかにした。
モデル特異的組換えプロンプトを適用すると, YOLO Worldでは+0.357 mAP@0.5, 合成ウシ花データでは+0.362 mAP@0.5となる。
クロスタスクの一般化を評価するため,LLMを用いて発見された軸構造を形態学的に異なる標的であるカブトムシに翻訳し,合成花データから得られた最適構造を用いたプロンプトと比較した。
重要なことに、合成-ピペリンは、モデル-オブジェクトの組み合わせの大部分において、ラベル付き実データ上で発見されたデータにマッチまたは超過する(花:0.374 vs. 0.353 for YOLO World; Pod: 0.429 vs. 0.371 for SAM3)。
この結果から,手動によるアノテーションを必要とせずに,ゼロショットVFMと教師検出器のギャップを大幅に埋めることができ,最適なプロンプトはモデル固有であり,非回避的であり,ドメイン間で転送可能であることが示唆された。
関連論文リスト
- Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning [6.254251081017878]
本稿では,デジタル双生児の植物シミュレーションにおける視覚言語モデル(VLM)の性能を評価するためのベンチマークを提案する。
本稿では,最先端のオープンソースVLMを利用して,ドローンによるリモートセンシング画像からシミュレーションパラメータを直接生成する手法を提案する。
論文 参考訳(メタデータ) (2026-03-09T20:58:43Z) - Real-Time Monocular Scene Analysis for UAV in Outdoor Environments [0.0]
我々はCo-SemDepthという,2つのタスクを正確かつ迅速に実行可能な共同ディープラーニングアーキテクチャを提案する。
Co-SemDepthは、MidSeaと呼ばれる合成海洋データに基づいて訓練され、合成データと実データの両方でテストされている。
論文 参考訳(メタデータ) (2026-03-09T14:08:50Z) - Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models [14.696438400081114]
本稿では,UAVに基づく人体検出のための合成データを変換するための3段階拡散型フレームワークを提案する。
Cwdはグローバルなスタイルとローカルなコンテンツドメインの相違を明確に分離し、3つのモジュールを使ってそれらのギャップを埋める。
提案手法は,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
論文 参考訳(メタデータ) (2025-12-15T19:57:36Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。