論文の概要: HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID
- arxiv url: http://arxiv.org/abs/2508.05038v1
- Date: Thu, 07 Aug 2025 05:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.657232
- Title: HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID
- Title(参考訳): HAMoBE:ビデオベースPerson ReIDのためのバイオメトリックエキスパートの階層的・適応的混合
- Authors: Yiyang Su, Yunping Shi, Feng Liu, Xiaoming Liu,
- Abstract要約: バイオメトリックエキスパートの階層的・適応的混合(HAMoBE)フレームワークを提案する。
HamoBEは、キーバイオメトリックの特徴を独立してモデル化することで、人間の知覚機構を模倣する。
私たちのアプローチは、大幅なパフォーマンス向上をもたらします。
- 参考スコア(独自算出の注目度): 12.322992313950428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, research interest in person re-identification (ReID) has increasingly focused on video-based scenarios, which are essential for robust surveillance and security in varied and dynamic environments. However, existing video-based ReID methods often overlook the necessity of identifying and selecting the most discriminative features from both videos in a query-gallery pair for effective matching. To address this issue, we propose a novel Hierarchical and Adaptive Mixture of Biometric Experts (HAMoBE) framework, which leverages multi-layer features from a pre-trained large model (e.g., CLIP) and is designed to mimic human perceptual mechanisms by independently modeling key biometric features--appearance, static body shape, and dynamic gait--and adaptively integrating them. Specifically, HAMoBE includes two levels: the first level extracts low-level features from multi-layer representations provided by the frozen large model, while the second level consists of specialized experts focusing on long-term, short-term, and temporal features. To ensure robust matching, we introduce a new dual-input decision gating network that dynamically adjusts the contributions of each expert based on their relevance to the input scenarios. Extensive evaluations on benchmarks like MEVID demonstrate that our approach yields significant performance improvements (e.g., +13.0% Rank-1 accuracy).
- Abstract(参考訳): 近年,個人再識別(ReID)に対する研究の関心は,多様・動的環境における堅牢な監視とセキュリティに欠かせない,映像ベースのシナリオに注目が集まっている。
しかし、既存のビデオベースのReID手法は、効率的にマッチングするためのクエリーギャラリーペアにおいて、両方のビデオから最も差別的な特徴を特定し、選択する必要性を無視することが多い。
この問題に対処するため,我々は,事前学習された大規模モデル(例えばCLIP)から多層的特徴を利用する階層的かつ適応的な生体情報混合(HAMoBE)フレームワークを提案する。
特にHAMoBEには2つのレベルがある: 第1レベルは凍結した大きなモデルによって提供される多層表現から低レベル特徴を抽出し、第2レベルは長期的、短期的、時間的特徴に焦点を当てた専門専門家で構成されている。
頑健なマッチングを保証するために,入力シナリオとの関係に基づいて,各専門家の貢献度を動的に調整する,新たなデュアルインプット決定ゲーティングネットワークを導入する。
MEVIDのようなベンチマークの大規模な評価は、我々の手法が大幅な性能向上(例えば、+13.0% Rank-1精度)をもたらすことを示している。
関連論文リスト
- HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - SapiensID: Foundation for Human Recognition [15.65725865703615]
SapiensIDは顔と体の分析の統一モデルであり、多様な設定で堅牢なパフォーマンスを実現する。
トレーニングを容易にするために,多彩なポーズとスケールのバリエーションを抽出した大規模データセットであるWebBody4Mを紹介した。
実験により、SapiensIDは様々なボディReIDベンチマークで最先端の結果を達成し、短期シナリオと長期シナリオの両方で特別なモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-07T03:38:07Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。