論文の概要: VisNet: Efficient Person Re-Identification via Alpha-Divergence Loss, Feature Fusion and Dynamic Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2601.00307v1
- Date: Thu, 01 Jan 2026 11:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.37101
- Title: VisNet: Efficient Person Re-Identification via Alpha-Divergence Loss, Feature Fusion and Dynamic Multi-Task Learning
- Title(参考訳): VisNet:Alpha-Divergence Loss, Feature Fusion, Dynamic Multi-Task Learningによる効率的な人物認識
- Authors: Anns Ijaz, Muhammad Azeem Javed,
- Abstract要約: 人物再識別(ReID)は、監視およびモバイルアプリケーションの両方において重要な分野である。
本稿では,現実シナリオに適した計算効率が高く効果的な再同定モデルであるVisNetを提案する。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Person re-identification (ReID) is an extremely important area in both surveillance and mobile applications, requiring strong accuracy with minimal computational cost. State-of-the-art methods give good accuracy but with high computational budgets. To remedy this, this paper proposes VisNet, a computationally efficient and effective re-identification model suitable for real-world scenarios. It is the culmination of conceptual contributions, including feature fusion at multiple scales with automatic attention on each, semantic clustering with anatomical body partitioning, a dynamic weight averaging technique to balance classification semantic regularization, and the use of loss function FIDI for improved metric learning tasks. The multiple scales fuse ResNet50's stages 1 through 4 without the use of parallel paths, with semantic clustering introducing spatial constraints through the use of rule-based pseudo-labeling. VisNet achieves 87.05% Rank-1 and 77.65% mAP on the Market-1501 dataset, having 32.41M parameters and 4.601 GFLOPs, hence, proposing a practical approach for real-time deployment in surveillance and mobile applications where computational resources are limited.
- Abstract(参考訳): 個人再識別(ReID)は、監視とモバイルアプリケーションの両方において非常に重要な領域であり、計算コストを最小限に抑えながら高い精度を必要とする。
最先端の手法は精度が良いが、高い計算予算がある。
そこで本研究では,実世界のシナリオに適した,計算的かつ効果的な再同定モデルであるVisNetを提案する。
解剖学的身体分割を伴うセマンティッククラスタリング、分類的セマンティック正規化のバランスをとる動的ウェイト平均化技術、メトリクス学習タスク改善のための損失関数FIDIの使用など、概念的コントリビューションの達成である。
マルチスケールのResNet50のステージ1から4は並列パスを使わずに融合し、セマンティッククラスタリングはルールベースの擬似ラベルを用いることで空間的制約を導入している。
VisNet は Market-1501 データセットで 87.05% Rank-1 と 77.65% mAP を達成し、32.41M パラメータと 4.601 GFLOP を持つ。
関連論文リスト
- Efficient Traffic Classification using HW-NAS: Advanced Analysis and Optimization for Cybersecurity on Resource-Constrained Devices [1.3124513975412255]
本稿ではハードウェア認識型ニューラルアーキテクチャサーチ(HW-NAS)により最適化されたハードウェア効率の高いディープニューラルネットワーク(DNN)を提案する。
リソース制約のあるIoT(Internet of Things)とエッジデバイス上でのセッションレベルの暗号化トラフィックの分類をサポートする。
最適化されたモデルは96.59%の精度で88.26Kのパラメータ、10.08MのFLOP、最大テンソルサイズは20.12Kである。
論文 参考訳(メタデータ) (2025-06-12T21:37:45Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - LeYOLO, New Embedded Architecture for Object Detection [0.0]
MSCOCOをベース検証セットとして用いたオブジェクト検出モデルに2つの重要な貢献点を紹介する。
まず,SSDLiteに匹敵する推論速度を維持する汎用検出フレームワークであるLeNeckを提案する。
第2に, YOLOアーキテクチャにおける計算効率の向上を目的とした, 効率的なオブジェクト検出モデルであるLeYOLOを提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。