論文の概要: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification
- arxiv url: http://arxiv.org/abs/2407.07351v2
- Date: Tue, 04 Feb 2025 13:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:52.844748
- Title: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification
- Title(参考訳): 多様性の統一: 一般化可能な車両再識別のための多専門知識の融合と協調
- Authors: Zhenyu Kuang, Hongyang Zhang, Mang Ye, Bin Yang, Yinhao Liu, Yue Huang, Xinghao Ding, Huafeng Li,
- Abstract要約: 一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
- 参考スコア(独自算出の注目度): 60.20318058777603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable vehicle re-identification (ReID) seeks to develop models that can adapt to unknown target domains without the need for additional fine-tuning or retraining. Previous works have mainly focused on extracting domain-invariant features by aligning data distributions between source domains. However, interfered by the inherent domain-related redundancy in the source images, solely relying on common features is insufficient for accurately capturing the complementary features with lower occurrence probability and smaller energy. To solve this unique problem, we propose a two-stage Multi-expert Knowledge Confrontation and Collaboration (MiKeCoCo) method, which fully leverages the high-level semantics of Contrastive Language-Image Pretraining (CLIP) to obtain a diversified prompt set and achieve complementary feature representations. Specifically, this paper first designs a Spectrum-based Transformation for Redundancy Elimination and Augmentation Module (STREAM) through simple image preprocessing to obtain two types of image inputs for the training process. Since STREAM eliminates domain-related redundancy in source images, it enables the model to pay closer attention to the detailed prompt set that is crucial for distinguishing fine-grained vehicles. This learned prompt set related to the vehicle identity is then utilized to guide the comprehensive representation learning of complementary features for final knowledge fusion and identity recognition. Inspired by the unity principle, MiKeCoCo integrates the diverse evaluation ways of experts to ensure the accuracy and consistency of ReID. Extensive experimental results demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): 一般化可能な車両再識別(ReID)は、追加の微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の特徴を抽出することに重点を置いてきた。
しかし、ソース画像の固有のドメイン関係の冗長性によって干渉され、共通特徴のみに依存しているため、相補的特徴をより低い発生確率と少ないエネルギーで正確に捉えるには不十分である。
このユニークな問題を解決するために,コントラスト言語-画像事前学習(CLIP)の高レベルな意味をフル活用して,多様なプロンプトセットを取得し,相補的な特徴表現を実現する,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
具体的には、まず、簡単な画像前処理により、冗長除去・拡張モジュール(STREAM)のスペクトルベースの変換を設計し、トレーニングプロセスのための2種類の画像入力を得る。
STREAMは、ソース画像のドメイン関連の冗長性を排除しているため、細粒度車両の識別に不可欠な詳細なプロンプトセットに、モデルがより注意を払うことができる。
次に、車両識別に関連する学習プロンプトを用いて、最終知識融合と識別のための補完的特徴の包括的表現学習を指導する。
統一原則にインスパイアされたMiKeCoCoは、専門家のさまざまな評価方法を統合して、ReIDの正確性と一貫性を保証する。
実験結果から,本手法が最先端性能を実現することを示す。
関連論文リスト
- FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation [42.980289787679084]
人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。
従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。
本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
論文 参考訳(メタデータ) (2025-03-27T15:14:03Z) - CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。
CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文 参考訳(メタデータ) (2025-01-27T14:08:25Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery [0.0]
本研究では,マルチAIエージェントの展開によるドメイン間知識発見への新たなアプローチを提案する。
本研究は,知識ギャップの特定とブリッジングにおいて,ドメイン固有マルチAIエージェントシステムの優れた能力を示すものである。
論文 参考訳(メタデータ) (2024-04-12T14:50:41Z) - Robust Representation Learning for Unified Online Top-K Recommendation [39.12191494863331]
統合されたオンライントップkレコメンデーションのための堅牢な表現学習を提案する。
提案手法は,データフェアネスを保証するため,エンティティ空間における統一モデリングを構築する。
提案手法は実業務シナリオに対応するために,オンラインでのデプロイに成功している。
論文 参考訳(メタデータ) (2023-10-24T03:42:20Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Modeling Multiple Views via Implicitly Preserving Global Consistency and
Local Complementarity [61.05259660910437]
複数の視点から表現を学習するために,グローバルな一貫性と相補性ネットワーク(CoCoNet)を提案する。
グローバルな段階では、重要な知識はビュー間で暗黙的に共有され、そのような知識を捕捉するためのエンコーダの強化は、学習された表現の識別性を向上させることができる。
最後に、局所的な段階において、横断的な識別的知識を結合する相補的要素を提案し、また、エンコーダが視点的識別性だけでなく、横断的な相補的情報も学習するように誘導する。
論文 参考訳(メタデータ) (2022-09-16T09:24:00Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Nested Collaborative Learning for Long-Tailed Visual Recognition [71.6074806468641]
NCLはNested Individual Learning (NIL)とNested Balanced Online Distillation (NBOD)の2つのコアコンポーネントから構成される。
表現をより徹底的に学習するために、NILとNBODはネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかのハードなカテゴリに対して行われる。
NCLでは、2つの視点から学ぶことはネストされ、非常に関連があり、補完的であり、ネットワークがグローバルでロバストな特徴だけでなく、注意深く区別する能力も捉えるのに役立つ。
論文 参考訳(メタデータ) (2022-03-29T08:55:39Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Multiple Domain Experts Collaborative Learning: Multi-Source Domain
Generalization For Person Re-Identification [41.923753462539736]
我々は、MD-ExCo(Multiple Domain Experts Collaborative Learning)という新しいトレーニングフレームワークを提案する。
MD-ExCoは普遍的な専門家といくつかのドメインエキスパートで構成されている。
DG-ReIDベンチマークの実験により、我々のMD-ExCoは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-26T06:38:23Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Gait Recognition using Multi-Scale Partial Representation Transformation
with Capsules [22.99694601595627]
本稿では,カプセルを用いたマルチスケール部分歩行表現の伝達を学習する,新しいディープネットワークを提案する。
我々のネットワークは、まず最先端のディープ部分特徴抽出器を用いて、マルチスケールな部分表現を得る。
その後、前向きと後向きの部分的特徴間のパターンの相関関係と共起関係を繰り返し学習する。
論文 参考訳(メタデータ) (2020-10-18T19:47:38Z) - Self-Supervised Learning Across Domains [33.86614301708017]
本稿では,ドメイン間のオブジェクト認識の問題に対して,同様のアプローチを適用することを提案する。
モデルでは,教師付き方式でセマンティックラベルを学習し,同じ画像上の自己教師型信号から学習することで,データに対する理解を深める。
この二次的なタスクは、ネットワークが対象の形状、空間配向や部分相関といった概念を学ぶのに役立ち、分類タスクの正規化として機能する。
論文 参考訳(メタデータ) (2020-07-24T06:19:53Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。