論文の概要: 3D Reconstruction and Knowledge Distillation to Improve Multi-View Image Models to Explore Spike Volume Estimation in Wheat
- arxiv url: http://arxiv.org/abs/2605.20940v1
- Date: Wed, 20 May 2026 09:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.596719
- Title: 3D Reconstruction and Knowledge Distillation to Improve Multi-View Image Models to Explore Spike Volume Estimation in Wheat
- Title(参考訳): 小麦のスパイク体積推定のための多視点画像モデル改善のための3次元再構成と知識蒸留
- Authors: Olivia Zumsteg, Jannis Widmer, Yann Bourdé, Norbert Kirchgessner, Andreas Hund, Lukas Roth, Paraskevi Nousi,
- Abstract要約: 小麦スパイク体積の正確な推定は, 収量成分分析と応力抵抗性評価に重要である。
光検出・ランドング(LiDAR)や飛行時間(ToF)といったアクティブな3Dセンシング手法は、植物の動きに敏感であり、屋外条件には適さない。
画像のみの効率的な推論を実現しつつ,訓練中に知識蒸留を行うハイブリッド2D-3D手法を提案する。
- 参考スコア(独自算出の注目度): 2.755500174935957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate estimation of wheat spike volume is important for yield component analysis and stress resilience assessment, yet field-based measurement remains challenging. Active 3D sensing methods such as Light Detection and Ranging (LiDAR) or time-of-flight (ToF) are sensitive to plant motion or poorly suited to outdoor conditions, while 3D reconstructions are computationally expensive. Direct 2D image processing would offer computational advantages, but image-based models lack explicit geometric information. We therefore propose a hybrid 2D-3D approach with knowledge distillation during training while enabling efficient image-only inference. First, we train a rigid-invariant point cloud network using distance-based histogram features to obtain pose-robust geometric representations. We then combine the 3D model with a proposed multi-view image-based regulated Transformer (RT) in an ensemble architecture. Finally, we distill the ensemble knowledge into a purely image-based student model using either feature-based or label-based distillation. The two distilled RTs reduce the mean absolute error (MAE) from 654.31 mm$^3$ of the non-distilled RT to 639.93 mm$^3$ and 644.62 mm$^3$, and increase correlation from 0.76 to 0.77 and 0.82, respectively. At the same time, inference time is reduced from 160 ms to 1.4 ms per spike. Distillation further mitigates volume-dependent bias and reshapes the latent representation of the image model toward a geometry-aware shape. Our results demonstrate that 3D-informed training of a 2D Transformer allows for scalable and efficient spike volume estimation for high-throughput field phenotyping.
- Abstract(参考訳): 小麦スパイク体積の正確な推定は, 収量成分分析と応力抵抗性評価に重要であるが, フィールドベース測定は依然として困難である。
光検出・ランドング(LiDAR)や飛行時間(ToF)といったアクティブな3Dセンシング手法は、植物の動きに敏感であり、屋外条件には適さない。
直接2D画像処理は計算上の利点を提供するが、画像ベースのモデルには明示的な幾何学的情報がない。
そこで我々は,画像のみの効率的な推論を実現しつつ,訓練中に知識蒸留を行うハイブリッド2D-3D手法を提案する。
まず、距離に基づくヒストグラム特徴を用いた剛性不変点雲ネットワークを訓練し、ポーズ・ロバストな幾何学的表現を得る。
次に、3Dモデルとマルチビュー画像ベース制御トランスフォーマー(RT)をアンサンブルアーキテクチャで組み合わせる。
最後に,これらの知識を,特徴ベースまたはラベルベース蒸留を用いて,純粋にイメージベースの学生モデルに蒸留する。
2つの蒸留RTは平均絶対誤差(MAE)を654.31 mm$^3$から639.93 mm$^3$と644.62 mm$^3$に減らし、それぞれ0.76から0.77と0.82に増加させた。
同時に、推定時間は1スパイクあたり160ミリ秒から1.4ミリ秒に短縮される。
蒸留はさらに体積依存バイアスを緩和し、画像モデルの潜在表現を幾何学的に認識する形状に再考する。
この結果から,2次元トランスの3次元インフォームドトレーニングにより,高出力フィールド表現のためのスケーラブルかつ効率的なスパイク体積推定が可能であることが示唆された。
関連論文リスト
- Deep Supervised LSTM for 3D morphology estimation from Multi-View RGB Images of Wheat Spikes [0.0]
二次元RGB画像から形態特性を推定することは固有の課題を示す。
本稿では,2次元画像の体積推定のためのニューラルネットワーク手法を提案する。
本モデルでは,6次元室内画像において平均絶対パーセンテージ誤差(MAPE)が6.46%に達する。
論文 参考訳(メタデータ) (2025-06-22T15:02:18Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - RIGI: Rectifying Image-to-3D Generation Inconsistency via Uncertainty-aware Learning [27.4552892119823]
マルチビュースナップショットの不整合は、しばしばオブジェクト境界に沿ってノイズやアーティファクトを導入し、3D再構成プロセスを損なう。
3次元ガウススプラッティング(3DGS)を3次元再構成に利用し,不確実性認識学習を再現プロセスに統合する。
適応的な画素単位の損失重み付けを適用してモデルを正規化し、不確実領域における再構成強度を低減させる。
論文 参考訳(メタデータ) (2024-11-28T02:19:28Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Real-time Dense Reconstruction of Tissue Surface from Stereo Optical
Video [10.181846237133167]
立体光学ビデオから組織表面の高密度3次元モデル(3次元)をリアルタイムに再構成する手法を提案する。
まずステレオマッチングを用いてビデオフレームから3D情報を抽出し,再構成した3Dモデルをモザイクする。
2mm未満の精度で高分解能テクスチャを有する復元3Dモデルについて, 生体内および生体内データによる実験結果を得た。
論文 参考訳(メタデータ) (2020-07-16T19:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。