Fugu-MT 論文翻訳(概要): Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification

論文の概要: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification

arxiv url: http://arxiv.org/abs/2407.07351v1
Date: Wed, 10 Jul 2024 04:06:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 17:51:32.168725
Title: Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification
Title（参考訳）: 多様性の統一: 一般化可能な車両再識別のための多専門知識の融合と協調
Authors: Zhenyu Kuang, Hongyang Zhang, Lidong Cheng, Yinhao Liu, Yue Huang, Xinghao Ding,
Abstract要約: 一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、未知のターゲットドメインに広く適応できるようにすることを目的としている。依然としてドメインシフトの問題に直面しており、未知のターゲットドメインに正確に一般化することは困難である。本稿では,2段階のMulti-expert Knowledge Confrontation and Collaboration (MiKeCoCo)法を提案する。
参考スコア（独自算出の注目度）: 32.80872775195836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalizable vehicle re-identification (ReID) aims to enable the well-trained model in diverse source domains to broadly adapt to unknown target domains without additional fine-tuning or retraining. However, it still faces the challenges of domain shift problem and has difficulty accurately generalizing to unknown target domains. This limitation occurs because the model relies heavily on primary domain-invariant features in the training data and pays less attention to potentially valuable secondary features. To solve this complex and common problem, this paper proposes the two-stage Multi-expert Knowledge Confrontation and Collaboration (MiKeCoCo) method, which incorporates multiple experts with unique perspectives into Contrastive Language-Image Pretraining (CLIP) and fully leverages high-level semantic knowledge for comprehensive feature representation. Specifically, we propose to construct the learnable prompt set of all specific-perspective experts by adversarial learning in the latent space of visual features during the first stage of training. The learned prompt set with high-level semantics is then utilized to guide representation learning of the multi-level features for final knowledge fusion in the next stage. In this process of knowledge fusion, although multiple experts employ different assessment ways to examine the same vehicle, their common goal is to confirm the vehicle's true identity. Their collective decision can ensure the accuracy and consistency of the evaluation results. Furthermore, we design different image inputs for two-stage training, which include image component separation and diversity enhancement in order to extract the ID-related prompt representation and to obtain feature representation highlighted by all experts, respectively. Extensive experimental results demonstrate that our method achieves state-of-the-art recognition performance.
Abstract（参考訳）: 一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、追加の微調整や再訓練をすることなく、未知のターゲットドメインに広く適応できるようにすることを目的としている。しかし、まだドメインシフトの問題に直面しており、未知のターゲットドメインへの正確な一般化が難しい。この制限は、モデルはトレーニングデータにおける主要なドメイン不変機能に大きく依存し、潜在的に価値のある二次機能にはあまり注意を払わないために生じる。この複雑で一般的な問題を解決するために、コントラスト言語-画像事前学習(CLIP)に一意な視点を持つ複数の専門家を取り入れ、包括的特徴表現に高レベルなセマンティック知識を十分に活用する2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。具体的には,第1段階の視覚的特徴の潜伏した空間において,敵対学習を行うことにより,すべての特定観念的専門家の学習可能なプロンプトセットを構築することを提案する。次に,ハイレベルセマンティクスを用いた学習プロンプトを用いて,次の段階における最終知識融合のための多レベル特徴の表現学習を指導する。この知識融合のプロセスでは、複数の専門家が同じ車両を調べるために異なる評価方法を採用しているが、彼らの共通の目標は、車両の真のアイデンティティを確認することである。彼らの集団的な決定は、評価結果の正確性と一貫性を確保することができる。さらに、ID関連プロンプト表現を抽出し、各専門家が強調した特徴表現を得るために、画像成分分離と多様性向上を含む2段階訓練のための異なる画像入力を設計する。実験結果から,本手法が最先端の音声認識性能を実現することを示す。

関連論文リスト

FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation [42.980289787679084]
人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
論文参考訳（メタデータ） (2025-03-27T15:14:03Z)
CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。 CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文参考訳（メタデータ） (2025-01-27T14:08:25Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery [0.0]
本研究では,マルチAIエージェントの展開によるドメイン間知識発見への新たなアプローチを提案する。本研究は,知識ギャップの特定とブリッジングにおいて,ドメイン固有マルチAIエージェントシステムの優れた能力を示すものである。
論文参考訳（メタデータ） (2024-04-12T14:50:41Z)
Robust Representation Learning for Unified Online Top-K Recommendation [39.12191494863331]
統合されたオンライントップkレコメンデーションのための堅牢な表現学習を提案する。提案手法は,データフェアネスを保証するため,エンティティ空間における統一モデリングを構築する。提案手法は実業務シナリオに対応するために,オンラインでのデプロイに成功している。
論文参考訳（メタデータ） (2023-10-24T03:42:20Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Modeling Multiple Views via Implicitly Preserving Global Consistency and Local Complementarity [61.05259660910437]
複数の視点から表現を学習するために,グローバルな一貫性と相補性ネットワーク(CoCoNet)を提案する。グローバルな段階では、重要な知識はビュー間で暗黙的に共有され、そのような知識を捕捉するためのエンコーダの強化は、学習された表現の識別性を向上させることができる。最後に、局所的な段階において、横断的な識別的知識を結合する相補的要素を提案し、また、エンコーダが視点的識別性だけでなく、横断的な相補的情報も学習するように誘導する。
論文参考訳（メタデータ） (2022-09-16T09:24:00Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Nested Collaborative Learning for Long-Tailed Visual Recognition [71.6074806468641]
NCLはNested Individual Learning (NIL)とNested Balanced Online Distillation (NBOD)の2つのコアコンポーネントから構成される。表現をより徹底的に学習するために、NILとNBODはネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかのハードなカテゴリに対して行われる。 NCLでは、2つの視点から学ぶことはネストされ、非常に関連があり、補完的であり、ネットワークがグローバルでロバストな特徴だけでなく、注意深く区別する能力も捉えるのに役立つ。
論文参考訳（メタデータ） (2022-03-29T08:55:39Z)
TransFuse: A Unified Transformer-based Image Fusion Framework using Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。 2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文参考訳（メタデータ） (2022-01-19T07:30:44Z)
Unleashing the Potential of Unsupervised Pre-Training with Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。 UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文参考訳（メタデータ） (2021-12-01T07:16:37Z)
Calibrated Feature Decomposition for Generalizable Person Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文参考訳（メタデータ） (2021-11-27T17:12:43Z)
Multiple Domain Experts Collaborative Learning: Multi-Source Domain Generalization For Person Re-Identification [41.923753462539736]
我々は、MD-ExCo(Multiple Domain Experts Collaborative Learning)という新しいトレーニングフレームワークを提案する。 MD-ExCoは普遍的な専門家といくつかのドメインエキスパートで構成されている。 DG-ReIDベンチマークの実験により、我々のMD-ExCoは最先端の手法よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2021-05-26T06:38:23Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Gait Recognition using Multi-Scale Partial Representation Transformation with Capsules [22.99694601595627]
本稿では,カプセルを用いたマルチスケール部分歩行表現の伝達を学習する,新しいディープネットワークを提案する。我々のネットワークは、まず最先端のディープ部分特徴抽出器を用いて、マルチスケールな部分表現を得る。その後、前向きと後向きの部分的特徴間のパターンの相関関係と共起関係を繰り返し学習する。
論文参考訳（メタデータ） (2020-10-18T19:47:38Z)
Self-Supervised Learning Across Domains [33.86614301708017]
本稿では,ドメイン間のオブジェクト認識の問題に対して,同様のアプローチを適用することを提案する。モデルでは,教師付き方式でセマンティックラベルを学習し,同じ画像上の自己教師型信号から学習することで,データに対する理解を深める。この二次的なタスクは、ネットワークが対象の形状、空間配向や部分相関といった概念を学ぶのに役立ち、分類タスクの正規化として機能する。
論文参考訳（メタデータ） (2020-07-24T06:19:53Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
Cross-modality Person re-identification with Shared-Specific Feature Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文参考訳（メタデータ） (2020-02-28T00:18:45Z)
Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文参考訳（メタデータ） (2020-02-19T07:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。