論文の概要: Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning
- arxiv url: http://arxiv.org/abs/2603.08930v1
- Date: Mon, 09 Mar 2026 20:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.826728
- Title: Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning
- Title(参考訳): ビジョン言語基礎モデルを用いたインコンテキスト学習による植物シミュレーション構成の生成
- Authors: Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles,
- Abstract要約: 本稿では,デジタル双生児の植物シミュレーションにおける視覚言語モデル(VLM)の性能を評価するためのベンチマークを提案する。
本稿では,最先端のオープンソースVLMを利用して,ドローンによるリモートセンシング画像からシミュレーションパラメータを直接生成する手法を提案する。
- 参考スコア(独自算出の注目度): 6.254251081017878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a synthetic benchmark to evaluate the performance of vision language models (VLMs) in generating plant simulation configurations for digital twins. While functional-structural plant models (FSPMs) are useful tools for simulating biophysical processes in agricultural environments, their high complexity and low throughput create bottlenecks for deployment at scale. We propose a novel approach that leverages state-of-the-art open-source VLMs -- Gemma 3 and Qwen3-VL -- to directly generate simulation parameters in JSON format from drone-based remote sensing images. Using a synthetic cowpea plot dataset generated via the Helios 3D procedural plant generation library, we tested five in-context learning methods and evaluated the models across three categories: JSON integrity, geometric evaluations, and biophysical evaluations. Our results show that while VLMs can interpret structural metadata and estimate parameters like plant count and sun azimuth, they often exhibit performance degradation due to contextual bias or rely on dataset means when visual cues are insufficient. Validation on a real-world drone orthophoto dataset and an ablation study using a blind baseline further characterize the models' reasoning capabilities versus their reliance on contextual priors. To the best of our knowledge, this is the first study to utilize VLMs to generate structural JSON configurations for plant simulations, providing a scalable framework for reconstruction 3D plots for digital twin in agriculture.
- Abstract(参考訳): 本稿では,デジタル双生児の植物シミュレーション構成の生成における視覚言語モデル(VLM)の性能評価のための総合的ベンチマークを提案する。
機能的構造的植物モデル(FSPM)は、農業環境における生物物理過程をシミュレートするための有用なツールであるが、その高い複雑さと低いスループットは、大規模に展開する際のボトルネックを生み出す。
本稿では,最新のオープンソースVLM(Gemma 3とQwen3-VL)を活用して,ドローンによるリモートセンシング画像からJSON形式でシミュレーションパラメータを直接生成する手法を提案する。
Helios 3Dプロシージャ植物生成ライブラリによって生成された人工ウシプロットデータセットを用いて,5つのコンテキスト内学習手法を検証し,JSON整合性,幾何的評価,生物物理学的評価の3つのカテゴリでモデルを評価した。
以上の結果から,VLMは構造的メタデータを解釈し,植物数や太陽方位などのパラメータを推定できるが,視覚的手がかりが不十分な場合,文脈バイアスやデータセット手段に依存するため,性能劣化が生じることが示唆された。
実世界のドローン写真データセットの検証と、ブラインドベースラインを用いたアブレーション調査により、モデルの推論能力と文脈的事前依存性をさらに特徴付けることができる。
我々の知る限りでは、VLMを用いて植物シミュレーションのための構造JSON構成を生成する最初の研究であり、農業におけるデジタル双生児のための3Dプロットを再構築するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- LLM-Driven 3D Scene Generation of Agricultural Simulation Environments [1.002902747701998]
3Dシーン生成のための大規模言語モデル(LLM)は、将来性を示すが、しばしばドメイン固有の推論、検証機構、モジュール設計を欠いている。
本稿では,LLMを用いて自然言語のプロンプトから農業用合成シミュレーション環境を生成する。
モジュール型マルチLLMパイプラインを開発し、3Dアセット検索、ドメイン知識注入、Unrealレンダリングエンジンのためのコード生成を統合した。
論文 参考訳(メタデータ) (2026-02-12T08:33:01Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - FloraForge: LLM-Assisted Procedural Generation of Editable and Analysis-Ready 3D Plant Geometric Models For Agricultural Applications [13.923496304391044]
ドメインエキスパートが生物学的に正確でパラメトリックな3D植物モデルを作成できるLLM支援フレームワークであるFloraForgeについて紹介する。
我々のフレームワークは、LLM対応の共設計を利用して、パラメータ化された植物を階層的なB-スプライン表面表現として生成するPythonスクリプトを洗練する。
本研究では, トウモロコシ, 大豆, ムン豆について, 実証点クラウドデータに手続きモデルを適用した枠組みを実証する。
論文 参考訳(メタデータ) (2025-12-11T23:28:25Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Towards scalable organ level 3D plant segmentation: Bridging the data algorithm computing gap [9.655034225644847]
植物表現型は、植物環境の相互作用と遺伝的進化に関する貴重な洞察を提供する。
一般的な3Dコンピュータビジョン領域の進歩にもかかわらず、植物の表現型化における3Dセグメンテーションの採用は、3つの大きな課題によって制限されている。
本研究は,アルゴリズムの進歩と実践的展開のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-09-08T04:21:27Z) - DATR: Diffusion-based 3D Apple Tree Reconstruction Framework with Sparse-View [8.493134772085233]
本研究は,スパークビューからリンゴ樹を復元するための2段階の枠組みを開発した。
このフレームワークは、フィールドおよび合成データセットの両方で評価された。
論文 参考訳(メタデータ) (2025-08-27T01:45:54Z) - A large-scale, physically-based synthetic dataset for satellite pose estimation [0.0]
本稿では,ハッブル宇宙望遠鏡(HST)を対象とするDLVS3-HST-V1データセットについて述べる。
データセットは、高度なリアルタイムおよびオフラインレンダリング技術を使用して生成され、高忠実度3Dモデル、ダイナミックライティング、物理的に正確な材料特性を統合する。
このパイプラインは、6-DoFのポーズとキーポイントデータ、セマンティックセグメンテーション、深さ、正規マップを備えた大規模でリッチな注釈付きイメージセットの作成をサポートする。
論文 参考訳(メタデータ) (2025-06-15T09:24:32Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。