論文の概要: Modular Transformer Architecture for Precision Agriculture Imaging
- arxiv url: http://arxiv.org/abs/2508.03751v1
- Date: Mon, 04 Aug 2025 05:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.365356
- Title: Modular Transformer Architecture for Precision Agriculture Imaging
- Title(参考訳): 精密農業イメージングのためのモジュールトランスアーキテクチャ
- Authors: Brian Gopalan, Nathalia Nascimento, Vishal Monga,
- Abstract要約: 本稿では、精密農業におけるドローン映像からの効率よく正確な雑草分画の必要性に対処する。
画像劣化に対処する高品質なモジュール型ディープラーニングフレームワークが提案されている。
- 参考スコア(独自算出の注目度): 13.182388658918498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the critical need for efficient and accurate weed segmentation from drone video in precision agriculture. A quality-aware modular deep-learning framework is proposed that addresses common image degradation by analyzing quality conditions-such as blur and noise-and routing inputs through specialized pre-processing and transformer models optimized for each degradation type. The system first analyzes drone images for noise and blur using Mean Absolute Deviation and the Laplacian. Data is then dynamically routed to one of three vision transformer models: a baseline for clean images, a modified transformer with Fisher Vector encoding for noise reduction, or another with an unrolled Lucy-Robinson decoder to correct blur. This novel routing strategy allows the system to outperform existing CNN-based methods in both segmentation quality and computational efficiency, demonstrating a significant advancement in deep-learning applications for agriculture.
- Abstract(参考訳): 本稿では, 精密農業におけるドローン映像から, 効率的かつ正確な雑草セグメンテーションの必要性について論じる。
各劣化タイプに最適化された特化前処理モデルとトランスフォーマーモデルを用いて、ブラーやノイズ・アンド・ルーティング入力などの品質条件を解析することにより、一般的な画像劣化に対処する品質対応のモジュール型ディープラーニングフレームワークを提案する。
このシステムはまず、Mean Absolute DeviationとLaplacianを使って、ノイズとぼかしのためのドローン画像を分析する。
データは3つの視覚変換器モデルのうちの1つに動的にルーティングされる:クリーンな画像のベースライン、ノイズ低減のためのフィッシャーベクトルエンコードによる修正されたトランスフォーマー、または、アンロールされたルーシー・ロビンソンデコーダでボケを正す。
この新たなルーティング戦略により、このシステムは、セグメント化品質と計算効率の両方において既存のCNNベースの手法を上回り、農業におけるディープラーニング応用の大幅な進歩を示すことができる。
関連論文リスト
- TDiR: Transformer based Diffusion for Image Restoration Tasks [19.992144590243836]
難易度の高い環境で撮影された画像は、ノイズ、カラーキャスト、ぼかし、光散乱など、様々な種類の劣化を経験することが多い。
これらの効果は、画像の品質を著しく低下させ、オブジェクトの検出、マッピング、分類といった下流タスクの適用性を阻害する。
画像復元作業に対処し,劣化画像の品質向上を目的としたトランスフォーマーベース拡散モデルを開発した。
論文 参考訳(メタデータ) (2025-06-25T10:28:13Z) - A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning [0.12499537119440242]
エンコーダ層の寸法を小さくし, 蒸留したGPT-2をデコーダとして使用するために, 軽量トランスフォーマアーキテクチャを提案する。
知識蒸留戦略は、より複雑な教師モデルから知識を伝達し、軽量ネットワークの性能を向上させるために用いられる。
実験により,提案手法は,最先端手法と比較してキャプション品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-11T06:24:02Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Image Reconstruction using Enhanced Vision Transformer [0.08594140167290097]
画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
論文 参考訳(メタデータ) (2023-07-11T02:14:18Z) - Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging [7.601695814245209]
本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
論文 参考訳(メタデータ) (2023-06-20T06:25:48Z) - Computational Optics for Mobile Terminals in Mass Production [17.413494778377565]
写真から測定した周波数特性とシステムパラメータの関係を説明するために,摂動型レンズシステムモデルを構築した。
このモデルに基づいて, 加工サンプルのSFRからプロキシカメラを構築するための最適化フレームワークを提案する。
プロキシカメラを用いて、光学収差とランダムな製造バイアスをエンコードしたデータペアを合成し、収差に基づくアルゴリズムを訓練する。
論文 参考訳(メタデータ) (2023-05-10T04:17:33Z) - Universal and Flexible Optical Aberration Correction Using Deep-Prior
Based Deconvolution [51.274657266928315]
そこで本研究では,収差画像とpsfマップを入力とし,レンズ固有深層プリエントを組み込んだ潜在高品質版を生成する,psf対応プラグイン・アンド・プレイ深層ネットワークを提案する。
具体的には、多彩なレンズの集合からベースモデルを事前訓練し、パラメータを迅速に精製して特定のレンズに適応させる。
論文 参考訳(メタデータ) (2021-04-07T12:00:38Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。