Fugu-MT 論文翻訳(概要): Lightweight Multimodal Adaptation of Vision Language Models for Species Recognition and Habitat Context Interpretation in Drone Thermal Imagery

論文の概要: Lightweight Multimodal Adaptation of Vision Language Models for Species Recognition and Habitat Context Interpretation in Drone Thermal Imagery

arxiv url: http://arxiv.org/abs/2604.06124v1
Date: Tue, 07 Apr 2026 17:36:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.966834
Title: Lightweight Multimodal Adaptation of Vision Language Models for Species Recognition and Habitat Context Interpretation in Drone Thermal Imagery
Title（参考訳）: ドローン熱画像における種認識とハビタット文脈解釈のための視覚言語モデルの軽量マルチモーダル適応
Authors: Hao Chen, Fang Qiu, Fangchao Dong, Defei Yang, Eve Bohnett, Li An,
Abstract要約: そこで本研究では,RGBを前提としたVLMと熱赤外画像との表現ギャップを埋める,軽量なマルチモーダル適応フレームワークを提案する。熱データセットは、ドローンが収集した画像から開発され、マルチモーダルプロジェクターアライメントによるVLMの微調整に使用された。その結果,軽量プロジェクタによる適応化は,RGBを前提としたVLMを熱ドローン画像に転送する上で,効果的かつ実用的な方法であることがわかった。
参考スコア（独自算出の注目度）: 5.015091644004661
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study proposes a lightweight multimodal adaptation framework to bridge the representation gap between RGB-pretrained VLMs and thermal infrared imagery, and demonstrates its practical utility using a real drone-collected dataset. A thermal dataset was developed from drone-collected imagery and was used to fine-tune VLMs through multimodal projector alignment, enabling the transfer of information from RGB-based visual representations to thermal radiometric inputs. Three representative models, including InternVL3-8B-Instruct, Qwen2.5-VL-7B-Instruct, and Qwen3-VL-8B-Instruct, were benchmarked under both closed-set and open-set prompting conditions for species recognition and instance enumeration. Among the tested models, Qwen3-VL-8B-Instruct with open-set prompting achieved the best overall performance, with F1 scores of 0.935 for deer, 0.915 for rhino, and 0.968 for elephant, and within-1 enumeration accuracies of 0.779, 0.982, and 1.000, respectively. In addition, combining thermal imagery with simultaneously collected RGB imagery enabled the model to generate habitat-context information, including land-cover characteristics, key landscape features, and visible human disturbance. Overall, the findings demonstrate that lightweight projector-based adaptation provides an effective and practical route for transferring RGB-pretrained VLMs to thermal drone imagery, expanding their utility from object-level recognition to habitat-context interpretation in ecological monitoring.
Abstract（参考訳）: 本研究では,RGBを前提としたVLMと熱赤外画像との表現ギャップを埋める軽量なマルチモーダル適応フレームワークを提案する。熱データセットは、ドローンで合成した画像から開発され、マルチモーダルプロジェクターアライメントを通じてVLMを微調整するために用いられ、RGBベースの視覚表現から熱ラジオメトリック入力への情報の転送を可能にした。 InternVL3-8B-インストラクト、Qwen2.5-VL-7B-インストラクト、Qwen3-VL-8B-インストラクトを含む3つの代表的なモデルが、種認識およびインスタンス列挙のためのクローズドセットおよびオープンセットプロンプト条件の両方でベンチマークされた。試験されたモデルのうち、Qwen3-VL-8B-インストラクションは、オープンセットのプロンプトにより、シカが0.935点、サイが0.915点、ゾウが0.968点、それぞれ0.779点、0.982点、および1.000点の計数精度で最高性能を達成した。さらに、熱画像と同時に収集されたRGB画像を組み合わせることで、土地被覆特性、キーランドスケープ特性、目に見える人間の乱れなど、生息環境コンテキスト情報を生成することができる。全体として,軽量プロジェクターによる適応は,RGBに制限されたVLMを熱ドローン画像に転送するための効果的かつ実用的な方法であり,オブジェクトレベルの認識から生態モニタリングにおける環境コンテキストの解釈へとその有用性を広げている。

関連論文リスト

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction [28.61594700250136]
本稿では,事前学習した幾何学変換器をマルチモーダルRGB-T入力に適応させる戦略であるSEARを提案する。提案手法は,3次元再構成とカメラポーズ推定において,最先端の手法よりも優れていた。大規模なアブレーション研究を通じてアーキテクチャを検証し、モデルが両方のモダリティをどのように整合させるかを示す。
論文参考訳（メタデータ） (2026-03-19T11:27:21Z)
Evaluation of deep learning architectures for wildlife object detection: A comparative study of ResNet and Inception [0.0]
本研究では,野生生物検出におけるResNet-101とInception v3の2つの個別ディープラーニングアーキテクチャの有効性について検討した。モデルは、標準化された前処理アプローチを用いて野生生物の画像データセットで訓練され、評価された。 ResNet-101モデルでは、分類精度は94%、平均精度は0.91で、階層的な特徴を抽出する上で高い性能を示した。
論文参考訳（メタデータ） (2025-12-17T14:30:47Z)
ROGR: Relightable 3D Objects using Generative Relighting [71.35020300131261]
ROGRは,複数の視点から捉えたオブジェクトの3Dモデルを再構築する新しい手法である。我々は、入力された環境光の下で物体の外観を出力する照明条件のニューラルレージアンス場(NeRF)を訓練する。我々は、確立されたTensoIRおよびStanford-ORBデータセットに対する我々のアプローチを評価し、実世界のオブジェクトキャプチャに対する我々のアプローチを示す。
論文参考訳（メタデータ） (2025-10-03T16:35:22Z)
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation [14.108149959967095]
ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
論文参考訳（メタデータ） (2025-09-29T14:55:51Z)
UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。 PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文参考訳（メタデータ） (2025-09-19T06:07:53Z)
LuxDiT: Lighting Estimation with Video Diffusion Transformer [66.60450792095901]
単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
論文参考訳（メタデータ） (2025-09-03T19:59:20Z)
R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception [1.0602247913671219]
R-LiViTは、LiDAR、RGB、サーマルイメージングを道路面から組み合わせた最初のデータセットである。 1万のLiDARフレームと2,400の時間的および空間的に整列されたRGBと熱画像が150の交通シナリオにまたがっている。
論文参考訳（メタデータ） (2025-03-21T13:17:28Z)
BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文参考訳（メタデータ） (2024-07-03T22:41:49Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文参考訳（メタデータ） (2020-12-30T11:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。