論文の概要: Gait Recognition via Collaborating Discriminative and Generative Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.06245v1
- Date: Sun, 09 Nov 2025 06:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.83641
- Title: Gait Recognition via Collaborating Discriminative and Generative Diffusion Models
- Title(参考訳): 識別拡散モデルと生成拡散モデルとの協調による歩行認識
- Authors: Haijun Xiong, Bin Feng, Bang Wang, Xinggang Wang, Wenyu Liu,
- Abstract要約: CoD$2$は、拡散モデルのデータ分散モデリング能力と識別モデルの意味表現学習強度を組み合わせた、新しいフレームワークである。
CoD$2$は最先端のパフォーマンスを実現し、既存の差別的手法とシームレスに統合できることを示す。
- 参考スコア(独自算出の注目度): 46.47230169653599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition offers a non-intrusive biometric solution by identifying individuals through their walking patterns. Although discriminative models have achieved notable success in this domain, the full potential of generative models remains largely underexplored. In this paper, we introduce \textbf{CoD$^2$}, a novel framework that combines the data distribution modeling capabilities of diffusion models with the semantic representation learning strengths of discriminative models to extract robust gait features. We propose a Multi-level Conditional Control strategy that incorporates both high-level identity-aware semantic conditions and low-level visual details. Specifically, the high-level condition, extracted by the discriminative extractor, guides the generation of identity-consistent gait sequences, whereas low-level visual details, such as appearance and motion, are preserved to enhance consistency. Furthermore, the generated sequences facilitate the discriminative extractor's learning, enabling it to capture more comprehensive high-level semantic features. Extensive experiments on four datasets (SUSTech1K, CCPG, GREW, and Gait3D) demonstrate that CoD$^2$ achieves state-of-the-art performance and can be seamlessly integrated with existing discriminative methods, yielding consistent improvements.
- Abstract(参考訳): 歩行認識は、歩行パターンを通して個人を特定することによって、非侵襲的な生体計測ソリューションを提供する。
差別モデルはこの領域で顕著な成功を収めてきたが、生成モデルのポテンシャルはいまだに未発見のままである。
本稿では,拡散モデルのデータ分散モデリング機能と識別モデルの意味表現学習能力を組み合わせて,堅牢な歩行特徴を抽出する新しいフレームワークである \textbf{CoD$^2$} を紹介する。
本稿では,ハイレベルなアイデンティティ認識型セマンティック条件と低レベルな視覚的詳細の両方を組み込んだマルチレベル条件制御手法を提案する。
具体的には、識別抽出器によって抽出された高レベル条件は、アイデンティティ一貫性のある歩行シーケンスの生成を誘導する一方、外観や動きなどの低レベルの視覚的詳細は、一貫性を高めるために保存される。
さらに、生成されたシーケンスは、識別的抽出者の学習を促進し、より包括的な高レベルのセマンティックな特徴をキャプチャする。
4つのデータセット(SUSTech1K、CCPG、GREW、Gait3D)の大規模な実験は、CoD$^2$が最先端のパフォーマンスを実現し、既存の差別的手法とシームレスに統合され、一貫した改善をもたらすことを示した。
関連論文リスト
- CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation [0.6554326244334868]
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
論文 参考訳(メタデータ) (2025-05-17T03:51:18Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models [6.501811946908292]
判別モデルは本質的に強力な生成能力を含むことを示す。
我々の手法であるDirect Ascent Synthesisは、これらの潜伏能力を明らかにする。
DASは複数の空間スケールで最適化を分解することで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-02-11T18:27:27Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。