論文の概要: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification
- arxiv url: http://arxiv.org/abs/2407.07351v1
- Date: Wed, 10 Jul 2024 04:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:51:32.168725
- Title: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification
- Title(参考訳): 多様性の統一: 一般化可能な車両再識別のための多専門知識の融合と協調
- Authors: Zhenyu Kuang, Hongyang Zhang, Lidong Cheng, Yinhao Liu, Yue Huang, Xinghao Ding,
- Abstract要約: 一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、未知のターゲットドメインに広く適応できるようにすることを目的としている。
依然としてドメインシフトの問題に直面しており、未知のターゲットドメインに正確に一般化することは困難である。
本稿では,2段階のMulti-expert Knowledge Confrontation and Collaboration (MiKeCoCo)法を提案する。
- 参考スコア(独自算出の注目度): 32.80872775195836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable vehicle re-identification (ReID) aims to enable the well-trained model in diverse source domains to broadly adapt to unknown target domains without additional fine-tuning or retraining. However, it still faces the challenges of domain shift problem and has difficulty accurately generalizing to unknown target domains. This limitation occurs because the model relies heavily on primary domain-invariant features in the training data and pays less attention to potentially valuable secondary features. To solve this complex and common problem, this paper proposes the two-stage Multi-expert Knowledge Confrontation and Collaboration (MiKeCoCo) method, which incorporates multiple experts with unique perspectives into Contrastive Language-Image Pretraining (CLIP) and fully leverages high-level semantic knowledge for comprehensive feature representation. Specifically, we propose to construct the learnable prompt set of all specific-perspective experts by adversarial learning in the latent space of visual features during the first stage of training. The learned prompt set with high-level semantics is then utilized to guide representation learning of the multi-level features for final knowledge fusion in the next stage. In this process of knowledge fusion, although multiple experts employ different assessment ways to examine the same vehicle, their common goal is to confirm the vehicle's true identity. Their collective decision can ensure the accuracy and consistency of the evaluation results. Furthermore, we design different image inputs for two-stage training, which include image component separation and diversity enhancement in order to extract the ID-related prompt representation and to obtain feature representation highlighted by all experts, respectively. Extensive experimental results demonstrate that our method achieves state-of-the-art recognition performance.
- Abstract(参考訳): 一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、追加の微調整や再訓練をすることなく、未知のターゲットドメインに広く適応できるようにすることを目的としている。
しかし、まだドメインシフトの問題に直面しており、未知のターゲットドメインへの正確な一般化が難しい。
この制限は、モデルはトレーニングデータにおける主要なドメイン不変機能に大きく依存し、潜在的に価値のある二次機能にはあまり注意を払わないために生じる。
この複雑で一般的な問題を解決するために、コントラスト言語-画像事前学習(CLIP)に一意な視点を持つ複数の専門家を取り入れ、包括的特徴表現に高レベルなセマンティック知識を十分に活用する2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
具体的には,第1段階の視覚的特徴の潜伏した空間において,敵対学習を行うことにより,すべての特定観念的専門家の学習可能なプロンプトセットを構築することを提案する。
次に,ハイレベルセマンティクスを用いた学習プロンプトを用いて,次の段階における最終知識融合のための多レベル特徴の表現学習を指導する。
この知識融合のプロセスでは、複数の専門家が同じ車両を調べるために異なる評価方法を採用しているが、彼らの共通の目標は、車両の真のアイデンティティを確認することである。
彼らの集団的な決定は、評価結果の正確性と一貫性を確保することができる。
さらに、ID関連プロンプト表現を抽出し、各専門家が強調した特徴表現を得るために、画像成分分離と多様性向上を含む2段階訓練のための異なる画像入力を設計する。
実験結果から,本手法が最先端の音声認識性能を実現することを示す。
関連論文リスト
- CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。
CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文 参考訳(メタデータ) (2025-01-27T14:08:25Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。