論文の概要: Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain
Few-Shot Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2207.07973v1
- Date: Sat, 16 Jul 2022 16:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:40:03.434253
- Title: Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain
Few-Shot Facial Expression Recognition
- Title(参考訳): 学習から分解:顔表情認識のためのカスケード分解ネットワーク
- Authors: Xinyi Zou, Yan Yan, Jing-Hao Xue, Si Chen, Hanzi Wang
- Abstract要約: 本稿では,複合表情認識のための新しいカスケード分解ネットワーク(CDNet)を提案する。
基本的な表現データセット上で同様のタスクをトレーニングすることで、CDNetは、目に見えない複合表現を容易に識別できる学習と分解の能力を学ぶ。
- 参考スコア(独自算出の注目度): 60.51225419301642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing compound facial expression recognition (FER) methods rely on
large-scale labeled compound expression data for training. However, collecting
such data is labor-intensive and time-consuming. In this paper, we address the
compound FER task in the cross-domain few-shot learning (FSL) setting, which
requires only a few samples of compound expressions in the target domain.
Specifically, we propose a novel cascaded decomposition network (CDNet), which
cascades several learn-to-decompose modules with shared parameters based on a
sequential decomposition mechanism, to obtain a transferable feature space. To
alleviate the overfitting problem caused by limited base classes in our task, a
partial regularization strategy is designed to effectively exploit the best of
both episodic training and batch training. By training across similar tasks on
multiple basic expression datasets, CDNet learns the ability of
learn-to-decompose that can be easily adapted to identify unseen compound
expressions. Extensive experiments on both in-the-lab and in-the-wild compound
expression datasets demonstrate the superiority of our proposed CDNet against
several state-of-the-art FSL methods. Code is available at:
https://github.com/zouxinyi0625/CDNet.
- Abstract(参考訳): 既存の複合表情認識(fer)手法のほとんどは、トレーニングのために大規模ラベル付き複合表情データに依存している。
しかし、そのようなデータは労働集約的で時間を要する。
本稿では,対象領域における複合表現のサンプルをわずかに必要とするFSL設定において,複合FERタスクに対処する。
具体的には,逐次分解機構に基づく共有パラメータを持つ複数の学習分解モジュールをカスケードし,転送可能な特徴空間を得る新しいカスケード分解ネットワーク(cdnet)を提案する。
タスクのベースクラスが限定的であることによるオーバーフィッティング問題を軽減するため、エピソディックトレーニングとバッチトレーニングの両方のベストを効果的に活用する部分正則化戦略を考案した。
複数の基本表現データセット上で同様のタスクをトレーニングすることで、CDNetは、見知らぬ複合表現を容易に識別できる学習と分解の能力を学ぶ。
In-the-labとin-the-wildの複合表現データセットの広範な実験により、提案したCDNetがいくつかの最先端FSL法に対して優れていることが示された。
コードはhttps://github.com/zouxinyi0625/cdnet。
関連論文リスト
- PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts [29.73609439825548]
キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。
既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。
ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
論文 参考訳(メタデータ) (2023-07-20T03:29:09Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Compositional Semantic Parsing with Large Language Models [27.627684573915147]
我々はより大きな語彙を持つより現実的な意味解析タスクにおける課題を特定する。
我々の最良の方法は最短のプロンプトに基づいている。
同様の取り組みが、他のタスクやドメインで新たな結果をもたらすことを期待しています。
論文 参考訳(メタデータ) (2022-09-29T17:58:28Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net
for the Single-Corpus and Cross-Corpus Speech Emotion Recognition [15.098532236157556]
音声感情認識(SER)は、人間とコンピュータの相互作用の研究の焦点となっている。
この課題に対処するために、シングルコーパスとクロスコーパスSERタスクを同時に扱うために、Capsule Network(CapsNet)とTransfer LearningベースのMixed Task Net(CTLMTNet)が提案されている。
その結果,CTL-MTNetは両タスクとも,複数の最先端手法と比較して,全てのケースで優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T09:09:23Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Few-shot learning via tensor hallucination [17.381648488344222]
限定されたラベルデータのみを与えられた例を分類するという課題に対処する。
単純な損失関数を使うことは、少数ショット設定でフィーチャージェネレータをトレーニングするのに十分であることを示す。
提案手法は,より洗練されたデータ拡張手法を上回って,新たな技術状態を設定する。
論文 参考訳(メタデータ) (2021-04-19T17:30:33Z) - Separable Batch Normalization for Robust Facial Landmark Localization
with Cross-protocol Network Training [41.82379935715916]
大規模で多様でバランスの取れたトレーニングデータは、ディープニューラルネットワークトレーニングの成功の鍵です。
多様性とバランスの取れたトレーニングサンプルを持たない小さなデータセットは、ディープネットワークのトレーニングを効果的にサポートできない。
本稿では, 顔のランドマークのロバスト化のためのクロスプロトコールネットワークトレーニング(CNT)戦略を用いた, 分離型バッチ正規化(SepBN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-17T13:04:06Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。