論文の概要: THIN: THrowable Information Networks and Application for Facial
Expression Recognition In The Wild
- arxiv url: http://arxiv.org/abs/2010.07614v3
- Date: Fri, 14 Jan 2022 14:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:20:51.199876
- Title: THIN: THrowable Information Networks and Application for Facial
Expression Recognition In The Wild
- Title(参考訳): Thin:成長可能な情報ネットワークと野生における表情認識への応用
- Authors: Estephe Arnaud, Arnaud Dapogny, Kevin Bailly
- Abstract要約: 本稿では,機械学習問題に対する内因性/内因性二重表現を提案する。
大規模な回転での数値認識や複数スケールでの形状認識など、複数の文脈でTHINを実験的に検証する。
我々は、THINがいくつかの挑戦的なデータセットに対する最先端のアプローチを著しく上回っていることを実証した。
- 参考スコア(独自算出の注目度): 7.971065005161565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a number of machine learning problems, an exogenous variable can be
identified such that it heavily influences the appearance of the different
classes, and an ideal classifier should be invariant to this variable. An
example of such exogenous variable is identity if facial expression recognition
(FER) is considered. In this paper, we propose a dual exogenous/endogenous
representation. The former captures the exogenous variable whereas the second
one models the task at hand (e.g. facial expression). We design a prediction
layer that uses a tree-gated deep ensemble conditioned by the exogenous
representation. We also propose an exogenous dispelling loss to remove the
exogenous information from the endogenous representation. Thus, the exogenous
information is used two times in a throwable fashion, first as a conditioning
variable for the target task, and second to create invariance within the
endogenous representation. We call this method THIN, standing for THrowable
Information Networks. We experimentally validate THIN in several contexts where
an exogenous information can be identified, such as digit recognition under
large rotations and shape recognition at multiple scales. We also apply it to
FER with identity as the exogenous variable. We demonstrate that THIN
significantly outperforms state-of-the-art approaches on several challenging
datasets.
- Abstract(参考訳): 多くの機械学習問題に対して、異種変数は異なるクラスの外観に大きく影響を与えるように特定でき、理想的な分類器はこの変数に不変であるべきである。
そのような外因性変数の例は、表情認識(FER)が考慮されている場合のアイデンティティである。
本稿では,二つの外因性/内因性表現を提案する。
前者は外因性変数をキャプチャし、後者は手元にあるタスク(例えば表情)をモデル化する。
我々は,外来表現によって条件づけられた木構造深層アンサンブルを用いた予測層を設計する。
また,内因性表現から外因性情報を取り除くために外因性解離損失を提案する。
したがって、外因性情報は投棄可能な方法で2回使用され、第1は目標タスクの条件変数として、第2は内因性表現内で不変性を生成する。
この手法をthin, stand for throwable information networksと呼ぶ。
複数の文脈においてTHINを実験的に検証し、例えば大きな回転数での数字認識や複数のスケールでの形状認識など、外因性情報を特定する。
また、同一性を外生変数とするFERにも適用する。
我々は、THINがいくつかの挑戦的なデータセットに対する最先端のアプローチを大幅に上回ることを示した。
関連論文リスト
- Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers? [39.31679737754048]
ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T10:25:06Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - What is a meaningful representation of protein sequences? [6.015898117103068]
データをどのように表現するかは、データから情報を取り出す能力に根本的な影響を与えます。
本稿では,伝達学習と解釈学習という,表現が自然に現れる2つの重要な文脈について考察する。
論文 参考訳(メタデータ) (2020-11-28T19:37:22Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z) - Learning Disentangled Expression Representations from Facial Images [2.2509387878255818]
対向損失の定式化を用いて,顔画像の非交叉表現を学習する。
使用済みモデルは、単一タスクデータセットの学習を容易にし、60.53%の精度で表現認識の最先端性を改善する。
論文 参考訳(メタデータ) (2020-08-16T21:23:32Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。