論文の概要: A Parallel Attention Network for Cattle Face Recognition
- arxiv url: http://arxiv.org/abs/2403.19980v1
- Date: Fri, 29 Mar 2024 05:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:24:57.543899
- Title: A Parallel Attention Network for Cattle Face Recognition
- Title(参考訳): 乳牛の顔認識のための並列注意ネットワーク
- Authors: Jiayu Li, Xuechao Zou, Shiying Wang, Ben Chen, Junliang Xing, Pin Tao,
- Abstract要約: 乳牛の顔の認識は、動物愛護や行動研究のような領域において最も重要である。
野生環境のための最初の大規模な牛の顔認識データセット ICRWE を作成しました。
483頭の牛と9,816頭の高解像度画像サンプルを含んでいる。
各モジュールには2つの並列位置注意モジュール (PAM) と特徴マッピングモジュール (FMM) が組み込まれている。
- 参考スコア(独自算出の注目度): 15.324414419712303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cattle face recognition holds paramount significance in domains such as animal husbandry and behavioral research. Despite significant progress in confined environments, applying these accomplishments in wild settings remains challenging. Thus, we create the first large-scale cattle face recognition dataset, ICRWE, for wild environments. It encompasses 483 cattle and 9,816 high-resolution image samples. Each sample undergoes annotation for face features, light conditions, and face orientation. Furthermore, we introduce a novel parallel attention network, PANet. Comprising several cascaded Transformer modules, each module incorporates two parallel Position Attention Modules (PAM) and Feature Mapping Modules (FMM). PAM focuses on local and global features at each image position through parallel channel attention, and FMM captures intricate feature patterns through non-linear mappings. Experimental results indicate that PANet achieves a recognition accuracy of 88.03% on the ICRWE dataset, establishing itself as the current state-of-the-art approach. The source code is available in the supplementary materials.
- Abstract(参考訳): 乳牛の顔の認識は、動物愛護や行動研究のような領域において最も重要である。
制限された環境では大きな進歩があったが、これらの成果を野生環境で適用することは依然として困難である。
そこで我々は,野生環境を対象とした最初の大規模牛の顔認識データセット ICRWE を開発した。
483頭の牛と9,816頭の高解像度画像サンプルを含んでいる。
それぞれのサンプルは、顔の特徴、光条件、顔の向きに関するアノテーションを受け取ります。
さらに,新しい並列アテンションネットワークPANetを導入する。
いくつかのカスケードトランスフォーマーモジュールを補完し、各モジュールには2つの並列位置注意モジュール(PAM)とフィーチャーマッピングモジュール(FMM)が組み込まれている。
PAMは、並列チャネルアテンションによる各画像位置の局所的特徴とグローバル的特徴に焦点を当て、FMMは非線形マッピングによる複雑な特徴パターンをキャプチャする。
実験の結果、PANetはICCWEデータセット上で88.03%の認識精度を達成し、現在の最先端のアプローチとして確立した。
ソースコードは補足資料で入手できる。
関連論文リスト
- Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - Dual-Context Aggregation for Universal Image Matting [16.59886660634162]
我々は、Dual-Context Aggregation Matting (DCAM)という、シンプルで普遍的なマッチングフレームワークを提案する。
特に、DCAMは、まずセマンティックバックボーンネットワークを採用し、入力画像とガイダンスから低レベル特徴とコンテキスト特徴を抽出する。
グローバルな輪郭セグメンテーションと地域境界の洗練を両立させることにより、DCAMは様々な種類のガイダンスやオブジェクトに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-28T06:56:24Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Towards Complete-View and High-Level Pose-based Gait Recognition [19.69177679378616]
本稿では,フルランク変換行列を学習し,各シングルビューポーズサンプルに対して多視点ポーズシーケンスを生成することを提案する。
提案手法は,ベースラインモデルと既存のポーズベース手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-09-23T13:13:59Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing [81.21490913108835]
本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-01-10T09:06:02Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。