論文の概要: Fusion or Confusion? Assessing the impact of visible-thermal image fusion for automated wildlife detection
- arxiv url: http://arxiv.org/abs/2511.22768v2
- Date: Mon, 01 Dec 2025 13:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.435581
- Title: Fusion or Confusion? Assessing the impact of visible-thermal image fusion for automated wildlife detection
- Title(参考訳): 核融合か核融合か? 自動野生生物検出のための可視熱画像融合の影響評価
- Authors: Camille Dionne-Pierre, Samuel Foucher, Jérôme Théau, Jérôme Lemaître, Patrick Charbonneau, Maxime Brousseau, Mathieu Varin,
- Abstract要約: 本研究は, 高度ブルーヒロン (Ardea herodias) をケーススタディとして, 同期型空中VESおよびTIR画像の性能評価を行った。
航空機に搭載された非常に高解像度の可視光センサーを使用することは、調査を運用するための興味深い選択肢となるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient wildlife monitoring methods are necessary for biodiversity conservation and management. The combination of remote sensing, aerial imagery and deep learning offer promising opportunities to renew or improve existing survey methods. The complementary use of visible (VIS) and thermal infrared (TIR) imagery can add information compared to a single-source image and improve results in an automated detection context. However, the alignment and fusion process can be challenging, especially since visible and thermal images usually have different fields of view (FOV) and spatial resolutions. This research presents a case study on the great blue heron (Ardea herodias) to evaluate the performances of synchronous aerial VIS and TIR imagery to automatically detect individuals and nests using a YOLO11n model. Two VIS-TIR fusion methods were tested and compared: an early fusion approach and a late fusion approach, to determine if the addition of the TIR image gives any added value compared to a VIS-only model. VIS and TIR images were automatically aligned using a deep learning model. A principal component analysis fusion method was applied to VIS-TIR image pairs to form the early fusion dataset. A classification and regression tree was used to process the late fusion dataset, based on the detection from the VIS-only and TIR-only trained models. Across all classes, both late and early fusion improved the F1 score compared to the VIS-only model. For the main class, occupied nest, the late fusion improved the F1 score from 90.2 (VIS-only) to 93.0%. This model was also able to identify false positives from both sources with 90% recall. Although fusion methods seem to give better results, this approach comes with a limiting TIR FOV and alignment constraints that eliminate data. Using an aircraft-mounted very high-resolution visible sensor could be an interesting option for operationalizing surveys.
- Abstract(参考訳): 生物多様性の保全と管理には,効率的な野生生物モニタリング手法が必要である。
リモートセンシング、航空画像、深層学習の組み合わせは、既存の調査手法を更新または改善する有望な機会を提供する。
可視光(VIS)と熱赤外(TIR)画像の相補的利用により、単一ソース画像と比較して情報を追加でき、自動検出コンテキストにおける結果を改善することができる。
しかし、特に可視・熱画像は視野(FOV)と空間分解能が異なるため、アライメントと融合のプロセスは困難である。
本研究は, YOLO11nモデルを用いて個体と巣を自動的に検出するために, 同期空中VISおよびTIR画像の性能を評価するために, グレートブルーヒロン(Ardea herodias)のケーススタディを提案する。
初期核融合法と後期核融合法という2つのVIS-TIR融合法を試験して比較した。
VISとTIRの画像は、ディープラーニングモデルを使用して自動的にアライメントされる。
初期の融合データセットを形成するために,VIS-TIR画像対に主成分分析融合法を適用した。
分類木と回帰木を用いて、VISのみのモデルとTIRのみのトレーニングモデルからの検出に基づいて、後期融合データセットを処理した。
全てのクラスにおいて、後期と初期の融合は、VISのみのモデルと比較してF1スコアを改善した。
主級の占有巣では、後期核融合によりF1のスコアは90.2(VISのみ)から93.0%に向上した。
このモデルはまた、90%のリコールで両方の情報源から偽陽性を識別することができた。
融合法はより良い結果をもたらすように見えるが、このアプローチはデータを排除するための制限されたTIR FOVとアライメント制約が伴う。
航空機に搭載された非常に高解像度の可視光センサーを使用することは、調査を運用するための興味深い選択肢となるかもしれない。
関連論文リスト
- Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF [51.36007967653781]
ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。
本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。
このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。
驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2025-06-10T16:20:52Z) - DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Range and Bird's Eye View Fused Cross-Modal Visual Place Recognition [10.086473917830112]
VPR(Image-to-point cloud cross-modal Visual Place Recognition)は、クエリがRGBイメージであり、データベースサンプルがLiDARポイントクラウドである、難しいタスクである。
本稿では,範囲(またはRGB)画像とBird's Eye View(BEV)画像からの情報を効果的に組み合わせた,革新的な初期検索と再ランク手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:29:26Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T19:06:55Z) - Drone Referring Localization: An Efficient Heterogeneous Spatial Feature Interaction Method For UAV Self-Localization [22.94589565476653]
我々は、Drone Referring Localization(DRL)と呼ばれる、効率的な異種空間特徴相互作用法を提案する。
異なるデータソースを分離して扱う従来の方法とは異なり、DRLは異種特徴の学習可能な相互作用を促進する。
従来のIR法と比較して、DRLはより優れたローカライズ精度(MA@20 + 9.4%)を実現し、計算時間(1/7)とストレージオーバーヘッド(2/3)を大幅に削減した。
論文 参考訳(メタデータ) (2022-08-13T03:25:50Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Bayesian Fusion for Infrared and Visible Images [26.64101343489016]
本稿では,赤外・可視画像のための新しいベイズ融合モデルを構築した。
我々は、融合画像が人間の視覚系を満たすようにすることを目指している。
従来の手法と比較して、新しいモデルは、高照度なターゲットとリッチテクスチャの詳細を持つより良い融合画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-12T14:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。