論文の概要: Meta-Feature Adapter: Integrating Environmental Metadata for Enhanced Animal Re-identification
- arxiv url: http://arxiv.org/abs/2501.13368v1
- Date: Thu, 23 Jan 2025 04:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:07.170089
- Title: Meta-Feature Adapter: Integrating Environmental Metadata for Enhanced Animal Re-identification
- Title(参考訳): Meta-Feature Adapter: 動物再同定のための環境メタデータの統合
- Authors: Yuzhuo Li, Di Zhao, Yihao Wu, Yun Sing Koh,
- Abstract要約: 環境メタデータをCLIPなどの視覚言語基盤モデルに統合する軽量モジュールを提案する。
提案手法は,環境メタデータを自然言語記述に翻訳し,メタデータを意識したテキスト埋め込みにエンコードし,これらの埋め込みを画像特徴に組み込む。
- 参考スコア(独自算出の注目度): 7.272706868932979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying individual animals within large wildlife populations is essential for effective wildlife monitoring and conservation efforts. Recent advancements in computer vision have shown promise in animal re-identification (Animal ReID) by leveraging data from camera traps. However, existing methods rely exclusively on visual data, neglecting environmental metadata that ecologists have identified as highly correlated with animal behavior and identity, such as temperature and circadian rhythms. To bridge this gap, we propose the Meta-Feature Adapter (MFA), a lightweight module designed to integrate environmental metadata into vision-language foundation models, such as CLIP, to enhance Animal ReID performance. Our approach translates environmental metadata into natural language descriptions, encodes them into metadata-aware text embeddings, and incorporates these embeddings into image features through a cross-attention mechanism. Furthermore, we introduce a Gated Cross-Attention mechanism that dynamically adjusts the weights of metadata contributions, further improving performance. To validate our approach, we constructed the Metadata Augmented Animal Re-identification (MAAR) dataset, encompassing six species from New Zealand and featuring paired image data and environmental metadata. Extensive experiments demonstrate that MFA consistently improves Animal ReID performance across multiple baseline models.
- Abstract(参考訳): 野生生物の個体群を同定することは、野生生物のモニタリングと保全に不可欠である。
近年のコンピュータビジョンの進歩は、カメラトラップからのデータを活用することにより、動物再識別(Animal ReID)の可能性を示唆している。
しかし、既存の手法は視覚データにのみ依存しており、生態学者が動物行動や、温度や概日リズムといったアイデンティティと非常に相関していると認識した環境メタデータを無視している。
このギャップを埋めるために,CLIPなどの視覚言語基盤モデルに環境メタデータを統合する軽量モジュールであるMeta-Feature Adapter (MFA)を提案する。
提案手法は,環境メタデータを自然言語記述に翻訳し,メタデータを意識したテキスト埋め込みにエンコードし,これらの埋め込みを画像特徴に組み込む。
さらに,メタデータコントリビューションの重み付けを動的に調整し,性能を向上するGated Cross-Attention機構を導入する。
アプローチを検証するため,ニュージーランドの6種を包含し,ペア画像データと環境メタデータを特徴とするメタデータ強化動物再識別データセットを構築した。
大規模な実験により、MFAは複数のベースラインモデルにまたがるAnimal ReID性能を一貫して改善することが示された。
関連論文リスト
- Animal Re-Identification on Microcontrollers [13.780361742050436]
カメラによる動物再同定は、大規模な屋外環境における野生生物のモニタリングと家畜の精密管理を支援することができる。
ほとんどのAnimal Re-IDモデルはワークステーションやサーバ用に設計されており、小さなメモリと低解像度の入力を持つデバイスには大きすぎる。
そこで本研究では,大規模教員による簡単な知識蒸留は,メモリと入力解像度が制約された場合に限られた利益をもたらすことを示すオンデバイス・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T03:09:22Z) - Denoised Diffusion for Object-Focused Image Augmentation [0.6109833303919141]
本研究では、制約データ設定における動物の健康モニタリングを明確にするためのオブジェクト指向データ拡張フレームワークを提案する。
われわれのアプローチは動物を背景から切り離し、動物を変換と拡散に基づく合成によって強化し、現実的で多様なシーンを作り出す。
ドメイン固有のデータを生成することにより,データ共有シナリオにおいてもリアルタイムの動物健康モニタリングソリューションが有効になる。
論文 参考訳(メタデータ) (2025-10-10T03:03:40Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF [51.36007967653781]
ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。
本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。
このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。
驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2025-06-10T16:20:52Z) - CFReID: Continual Few-shot Person Re-Identification [127.60234742605832]
Lifelong ReIDは、複数のドメインにまたがる知識を漸進的に学習し、蓄積するために提案されている。
LReIDモデルは、一般にプライバシとコストの懸念のためにアクセスできない、目に見えない各ドメインの大規模ラベル付きデータでトレーニングする必要がある。
本稿では,数ショットデータを用いてモデルをインクリメンタルにトレーニングし,すべてのドメインでテストするContinual Few-shot ReIDを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:17:05Z) - Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。
本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - MiTREE: Multi-input Transformer Ecoregion Encoder for Species Distribution Modelling [2.3776390335270694]
我々は、エコリージョンエンコーダを備えたマルチインプット・ビジョン・トランスフォーマー・モデルであるMiTREEを紹介する。
夏期と冬期のサットバードデータセットを用いて,鳥種の出現率を予測することを目的として,本モデルの評価を行った。
論文 参考訳(メタデータ) (2024-12-25T22:20:47Z) - Categorical Keypoint Positional Embedding for Robust Animal Re-Identification [22.979350771097966]
動物再同定(ReID)は生態学研究において欠かせない道具となっている。
ヒトのReIDとは異なり、動物のポーズの多様性の高さ、環境条件の多様性、動物データに事前訓練されたモデルを直接適用できないことなど、動物ReIDは重大な課題に直面している。
本研究は,1つの注釈付き事前学習拡散モデルを用いたキーポイント伝搬機構を導入する。
論文 参考訳(メタデータ) (2024-12-01T14:09:00Z) - Towards Context-Rich Automated Biodiversity Assessments: Deriving AI-Powered Insights from Camera Trap Data [0.06819010383838325]
カメラトラップは生態研究において大きな新しい機会を提供する。
現在の自動画像解析手法は、影響のある保存結果をサポートするために必要な文脈的豊かさを欠いていることが多い。
本稿では、深層学習に基づく視覚と言語モデルを組み合わせて、カメラトラップのデータを用いた生態報告を改善するための統合的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-21T15:28:52Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - An Individual Identity-Driven Framework for Animal Re-Identification [15.381573249551181]
IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
論文 参考訳(メタデータ) (2024-10-30T11:34:55Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - WildlifeDatasets: An open-source toolkit for animal re-identification [0.0]
WildlifeDatasetsは、生態学者とコンピュータビジョン/機械学習研究者のためのオープンソースのツールキットである。
WildlifeDatasetsはPythonで書かれており、公開されている野生生物データセットに簡単にアクセスできる。
我々は,MegaDescriptorという多種多様な種において,個人を再同定するための最初の基礎モデルを提供する。
論文 参考訳(メタデータ) (2023-11-15T17:08:09Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Camouflaged Image Synthesis Is All You Need to Boost Camouflaged
Detection [65.8867003376637]
本研究では,カモフラージュデータの合成フレームワークを提案する。
提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。
我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-08-13T06:55:05Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - Coarse-to-fine Animal Pose and Shape Estimation [67.39635503744395]
単一画像から3次元動物メッシュを再構成する粗大なアプローチを提案する。
粗い推定段階はまずSMALモデルのポーズ、形状、翻訳パラメータを推定する。
次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。
論文 参考訳(メタデータ) (2021-11-16T01:27:20Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。