論文の概要: From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification
- arxiv url: http://arxiv.org/abs/2603.02270v1
- Date: Sat, 28 Feb 2026 21:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.485539
- Title: From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification
- Title(参考訳): 視覚からマルチモーダルへ:動物識別におけるエンコーダの体系的アブレーションと融合戦略
- Authors: Vasiliy Kudryavtsev, Kirill Borodin, German Berezin, Kirill Bubenchikov, Grach Mkrtchian, Alexander Ryzhkov,
- Abstract要約: 本研究は,合成テキスト記述から派生したセマンティック・アイデンティティーによる視覚的特徴を高めるマルチモーダル・検証・フレームワークを提案する。
我々はこの調査を支援するため、695,091匹の動物を含む190万枚の写真からなる大規模な訓練コーパスを構築した。
- 参考スコア(独自算出の注目度): 35.71275089934349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated animal identification is a practical task for reuniting lost pets with their owners, yet current systems often struggle due to limited dataset scale and reliance on unimodal visual cues. This study introduces a multimodal verification framework that enhances visual features with semantic identity priors derived from synthetic textual descriptions. We constructed a massive training corpus of 1.9 million photographs covering 695,091~unique animals to support this investigation. Through systematic ablation studies, we identified SigLIP2-Giant and E5-Small-v2 as the optimal vision and text backbones. We further evaluated fusion strategies ranging from simple concatenation to adaptive gating to determine the best method for integrating these modalities. Our proposed approach utilizes a gated fusion mechanism and achieved a Top-1 accuracy of 84.28\% and an Equal Error Rate of 0.0422 on a comprehensive test protocol. These results represent an 11\% improvement over leading unimodal baselines and demonstrate that integrating synthesized semantic descriptions significantly refines decision boundaries in large-scale pet re-identification.
- Abstract(参考訳): 動物の自動識別は、失われたペットを飼い主と再会させるための実践的なタスクであるが、現在のシステムはデータセットの規模が限られており、一生の視覚的手がかりに依存しているため、しばしば苦労している。
本研究は,合成テキスト記述から派生したセマンティック・アイデンティティーによる視覚的特徴を高めるマルチモーダル・検証・フレームワークを提案する。
我々はこの調査を支援するために695,091種を対象とする190万枚の写真からなる大規模な訓練コーパスを構築した。
SigLIP2-GiantとE5-Small-v2を最適な視覚とテキストバックボーンとして同定した。
さらに, 単純な結合から適応ゲーティングまで, 融合戦略を検証し, これらのモダリティを統合する最良の方法について検討した。
提案手法はゲート融合機構を用いて, 包括的テストプロトコル上でのTop-1精度84.28\%, Equal Error Rate0.0422を実現した。
これらの結果から, 統合された意味記述の統合は, ペットの大規模再同定において決定境界を著しく洗練することが示された。
関連論文リスト
- Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench [48.60251555171943]
MLLM(Multimodal Large Language Models)は、異常検出や解剖学的モダリティのレポート生成などのタスクにおいて、顕著な熟練性を示した。
本研究では, 機能的トレーサの生体分布を, 形態的先行性とは無関係に復号化できない現状の視覚エンコーダについて, 基本的な機能的知覚ギャップを定量化する。
PET-Benchは52,308個の階層型QAペアからなるPET-Benchの最初の大規模機能評価ベンチマークである。
AVAは認知ギャップを効果的に橋渡しし、CoTを幻覚源から頑健な推論ツールに変換し、診断を改善していることを示す。
論文 参考訳(メタデータ) (2026-01-06T05:58:50Z) - Active Learning for Animal Re-Identification with Ambiguity-Aware Sampling [2.1290878226779877]
本稿では、補完的なクラスタリング手法を利用して構造的不明瞭な領域を探索し、ターゲットとする新しいAL Re-IDフレームワークを提案する。
提案手法は,既存の基盤,USL,ALのベースラインを一貫して上回ることを示す。
具体的には,基礎的手法,USL法,AL法を用いて,13種の野生生物データセットの平均10.49%,11.19%,および3.99%(mAP)の改善を報告した。
論文 参考訳(メタデータ) (2025-11-10T03:13:40Z) - Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition [5.45546363077543]
Cattle-CLIPは、牛の行動認識のためのマルチモーダルなディープラーニングフレームワークである。
これは、時間統合モジュールを追加することで、大規模な画像言語モデルCLIPから適応される。
実験により、キャトル-CLIPは6つの行動に対して96.1%の総合的精度を達成することが示された。
論文 参考訳(メタデータ) (2025-10-10T09:43:12Z) - Denoised Diffusion for Object-Focused Image Augmentation [0.6109833303919141]
本研究では、制約データ設定における動物の健康モニタリングを明確にするためのオブジェクト指向データ拡張フレームワークを提案する。
われわれのアプローチは動物を背景から切り離し、動物を変換と拡散に基づく合成によって強化し、現実的で多様なシーンを作り出す。
ドメイン固有のデータを生成することにより,データ共有シナリオにおいてもリアルタイムの動物健康モニタリングソリューションが有効になる。
論文 参考訳(メタデータ) (2025-10-10T03:03:40Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer [26.738709781346678]
スケーラブルなAniMerフレームワークの拡張バージョンであるAniMer+を紹介します。
AniMer+の重要なイノベーションは、その高容量、家族対応ビジョントランス(ViT)である。
CtrlAni3D for quadrupeds と CtrlAVES3D for birds の2つの大規模な合成データセットを生成した。
論文 参考訳(メタデータ) (2025-08-01T03:53:03Z) - A multi-head deep fusion model for recognition of cattle foraging events using sound and movement signals [0.2450783418670958]
この研究は、音響信号と慣性信号の融合に基づくディープニューラルネットワークを導入する。
このモデルの主な利点は、それぞれから独立して特徴の自動抽出による信号の組み合わせである。
論文 参考訳(メタデータ) (2025-05-15T11:55:16Z) - Contrastive Visual Data Augmentation [119.51630737874855]
大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。
本稿では,LMMの視覚的特徴と言語との整合性を改善するために,Contrastive visual Data Augmentation(CoDA)戦略を提案する。
CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
論文 参考訳(メタデータ) (2025-02-24T23:05:31Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Persistent Animal Identification Leveraging Non-Visual Markers [71.14999745312626]
乱雑なホームケージ環境下で各マウスにユニークな識別子を時間をかけて発見し提供することを目的としている。
これは、(i)各マウスの視覚的特徴の区別の欠如、(ii)一定の閉塞を伴うシーンの密閉性のため、非常に難しい問題である。
本手法は, この動物識別問題に対して77%の精度を達成し, 動物が隠れているときの急激な検出を拒否することができる。
論文 参考訳(メタデータ) (2021-12-13T17:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。