論文の概要: Disentanglement for Discriminative Visual Recognition
- arxiv url: http://arxiv.org/abs/2006.07810v1
- Date: Sun, 14 Jun 2020 06:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:47:17.538809
- Title: Disentanglement for Discriminative Visual Recognition
- Title(参考訳): 識別的視覚認識のための絡み合い
- Authors: Xiaofeng Liu
- Abstract要約: この章では、有害な要因を、タスク関連/非関連なセマンティックなバリエーションと、特定されていない潜伏的なバリエーションとして体系的に要約する。
統合された2つの完全に接続されたレイヤブランチフレームワークにおいて、ディープメトリックロスとソフトマックスロスを組み合わせることで、より優れたFER性能を実現することができる。
このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 7.954325638519141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent successes of deep learning-based recognition rely on maintaining the
content related to the main-task label. However, how to explicitly dispel the
noisy signals for better generalization in a controllable manner remains an
open issue. For instance, various factors such as identity-specific attributes,
pose, illumination and expression affect the appearance of face images.
Disentangling the identity-specific factors is potentially beneficial for
facial expression recognition (FER). This chapter systematically summarize the
detrimental factors as task-relevant/irrelevant semantic variations and
unspecified latent variation. In this chapter, these problems are casted as
either a deep metric learning problem or an adversarial minimax game in the
latent space. For the former choice, a generalized adaptive (N+M)-tuplet
clusters loss function together with the identity-aware hard-negative mining
and online positive mining scheme can be used for identity-invariant FER. The
better FER performance can be achieved by combining the deep metric loss and
softmax loss in a unified two fully connected layer branches framework via
joint optimization. For the latter solution, it is possible to equipping an
end-to-end conditional adversarial network with the ability to decompose an
input sample into three complementary parts. The discriminative representation
inherits the desired invariance property guided by prior knowledge of the task,
which is marginal independent to the task-relevant/irrelevant semantic and
latent variations. The framework achieves top performance on a serial of tasks,
including lighting, makeup, disguise-tolerant face recognition and facial
attributes recognition. This chapter systematically summarize the popular and
practical solution for disentanglement to achieve more discriminative visual
recognition.
- Abstract(参考訳): 最近のディープラーニングベースの認識の成功は、メインタスクラベルに関連するコンテンツの維持に依存している。
しかし、制御可能な方法でより優れた一般化のためにノイズ信号を明示的に排除する方法は、未解決の問題である。
例えば、アイデンティティ固有の属性、ポーズ、照明、表現などのさまざまな要因が顔画像の外観に影響を与える。
識別特異的因子の識別は、表情認識(FER)に有用である可能性がある。
本章では,目的要因をタスク関連/非関連意味的変動と非特定潜在的変動として体系的に要約する。
本章では,これらの問題を,潜伏空間における深度学習問題あるいは対角的ミニマックスゲームとして論じる。
前者の選択では、一般化された適応型(n+m)-タップレットクラスタ損失関数と、id-aware hard- negative mining と online positive mining scheme を併用して、id-invariant fer に使用できる。
統合された2つの完全連結層分岐フレームワークにおいて, 深い計量損失とソフトマックス損失を結合最適化により組み合わせることで, FER性能が向上する。
後者の解では、入力サンプルを3つの相補的な部分に分解する機能を備えたエンドツーエンドの条件付き対向ネットワークを装備できる。
判別表現は、タスクの事前知識によって導かれる所望の非分散特性を継承する。
このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。
本章では、より識別的な視覚認識を実現するために、乱れに対する一般的かつ実用的な解決策を体系的に要約する。
関連論文リスト
- Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification [17.285526655788274]
Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。
既存の方法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。
我々は、動的ID誘導型注意ネットワーク(DIAN)を導入し、アイデンティティ誘導型およびモダリティ一貫性のある埋め込みをマイニングする。
論文 参考訳(メタデータ) (2024-05-21T12:04:56Z) - Implicit Discriminative Knowledge Learning for Visible-Infrared Person Re-Identification [5.592360872268223]
Visible-Infrared Person Re-identification (VI-ReID) は、横断歩行者検索の課題である。
既存の研究は主に、異なるモダリティのイメージを統一された空間に埋め込み、モダリティの共有された特徴をマイニングすることに焦点を当てている。
本稿では,モダリティ特定に含まれる暗黙的識別情報を発見・活用するために,新たなIDKLネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-18T12:12:45Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Set-Based Face Recognition Beyond Disentanglement: Burstiness
Suppression With Variance Vocabulary [78.203301910422]
SFRにおける2つの重要な問題は、顔の品質とバーストネスであり、アイデンティティ非関連と分散関連の両方である、と我々は主張する。
分散特徴と同一性の特徴を分離する軽量な集合ベース・アンタングルメント・フレームワークを提案する。
集合における顔のバースト性を抑制するために,語彙ベースバースト抑制法(VBS)を提案する。
論文 参考訳(メタデータ) (2023-04-13T04:02:58Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Joint Discriminative and Metric Embedding Learning for Person
Re-Identification [8.137833258504381]
個人の再識別は,非制限的ニュアンス要因によって引き起こされるクラス内ばらつきが高いため,困難な課題である。
最近のアプローチでは、強力なアーキテクチャはニュアンス要因に不変な特徴表現を学習する能力を持っていると仮定されている。
論文 参考訳(メタデータ) (2022-12-28T22:08:42Z) - TransFA: Transformer-based Representation for Face Attribute Evaluation [87.09529826340304]
我々はtextbfTransFA を用いたtextbfattribute 評価のための新しい textbf Transformer 表現を提案する。
提案するTransFAは,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-12T10:58:06Z) - Heterogeneous Visible-Thermal and Visible-Infrared Face Recognition
using Unit-Class Loss and Cross-Modality Discriminator [0.43748379918040853]
本稿では,クロスモーダル顔認識のためのエンドツーエンドフレームワークを提案する。
モダリティ情報を捨てつつアイデンティティ情報を保存するために,新しい単位クラス損失を提案する。
提案したネットワークは、モダリティ非依存のベクトル表現を抽出したり、テスト画像のマッチングペア分類に利用できる。
論文 参考訳(メタデータ) (2021-11-29T06:14:00Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。