論文の概要: Knowledge-Spreader: Learning Facial Action Unit Dynamics with Extremely
Limited Labels
- arxiv url: http://arxiv.org/abs/2203.16678v1
- Date: Wed, 30 Mar 2022 21:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 09:05:07.002677
- Title: Knowledge-Spreader: Learning Facial Action Unit Dynamics with Extremely
Limited Labels
- Title(参考訳): knowledge-spreader: 非常に限られたラベルで顔のアクションユニットのダイナミクスを学ぶ
- Authors: Xiaotian Li, Xiang Zhang, Taoyue Wang, Lijun Yin
- Abstract要約: 我々は、深い半教師付きフレームワークKS(Knowledge-Spreader)を提案する。
KSは、アウト・オブ・ディストリビューションの一般化能力を強化するために、空間-テンポラルAU相関知識を学習する。
ラベル付きフレームからラベルなしデータへの空間的知識を拡散し、部分的にラベル付けされたビデオクリップの時間的情報を完成させる。
- 参考スコア(独自算出の注目度): 13.279676910432599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on the automatic detection of facial action unit (AU) have
extensively relied on large-sized annotations. However, manually AU labeling is
difficult, time-consuming, and costly. Most existing semi-supervised works
ignore the informative cues from the temporal domain, and are highly dependent
on densely annotated videos, making the learning process less efficient. To
alleviate these problems, we propose a deep semi-supervised framework
Knowledge-Spreader (KS), which differs from conventional methods in two
aspects. First, rather than only encoding human knowledge as constraints, KS
also learns the Spatial-Temporal AU correlation knowledge in order to
strengthen its out-of-distribution generalization ability. Second, we approach
KS by applying consistency regularization and pseudo-labeling in multiple
student networks alternately and dynamically. It spreads the spatial knowledge
from labeled frames to unlabeled data, and completes the temporal information
of partially labeled video clips. Thus, the design allows KS to learn AU
dynamics from video clips with only one label allocated, which significantly
reduce the requirements of using annotations. Extensive experiments demonstrate
that the proposed KS achieves competitive performance as compared to the state
of the arts under the circumstances of using only 2% labels on BP4D and 5%
labels on DISFA. In addition, we test it on our newly developed large-scale
comprehensive emotion database, which contains considerable samples across
well-synchronized and aligned sensor modalities for easing the scarcity issue
of annotations and identities in human affective computing. The new database
will be released to the research community.
- Abstract(参考訳): 顔行動自動検出装置(au)の最近の研究は大規模アノテーションに広く依存している。
しかし、手動のAUラベリングは難しく、時間がかかり、コストもかかる。
既存の半教師付き作品の多くは、時間領域からの情報的手がかりを無視し、高度に注釈付けされたビデオに依存するため、学習プロセスの効率が低下する。
そこで本研究では,従来の手法と異なる,深い半教師付きフレームワークであるknowledge-spreader (ks) を提案する。
まず、人間の知識を制約としてエンコードする代わりに、ksは分布の一般化能力を強化するために空間-時間相関の知識を学習する。
第2に,複数の学生ネットワークにおける一貫性正規化と擬似ラベルを交互に動的に適用することにより,ksにアプローチする。
ラベル付きフレームからラベル付きデータに空間知識を広め、部分的にラベル付きビデオクリップの時間情報を完成させる。
これにより、KSは1つのラベルしか割り当てられていないビデオクリップからAUのダイナミックスを学ぶことができ、アノテーションの使用要件を大幅に削減できる。
BP4Dでは2%,disFAでは5%のラベルしか使用していない状況下では,提案したKSは,芸術の状況と比較して競争性能が向上することを示した。
さらに,本研究は,人間の感情コンピューティングにおけるアノテーションやアイデンティティの不足を解消するために,高度に同期されたセンサモードのかなりのサンプルを含む大規模総合感情データベース上でテストする。
新しいデータベースは研究コミュニティに公開される予定だ。
関連論文リスト
- FlexSSL : A Generic and Efficient Framework for Semi-Supervised Learning [19.774959310191623]
我々はFlexSSLと呼ばれる汎用的で効率的な学習フレームワークを開発した。
我々はFlexSSLが半教師付き学習アルゴリズムの性能を継続的に向上できることを示す。
論文 参考訳(メタデータ) (2023-12-28T08:31:56Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - A Teacher-Student Framework for Semi-supervised Medical Image
Segmentation From Mixed Supervision [62.4773770041279]
そこで我々は,臓器と病変のセグメンテーションのための教師と学生のスタイルに基づくセミ教師付き学習フレームワークを開発した。
我々は,本モデルがバウンディングボックスの品質に対して堅牢であることを示し,フル教師付き学習手法と比較した性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T07:58:20Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - Exploiting Temporal Coherence for Self-Supervised One-shot Video
Re-identification [44.9767103065442]
ワンショット再識別は、このラベル付けの労力を減らすための潜在的候補である。
現在のワンショット再識別法はラベル付きデータとラベルなしデータの相互関係をモデル化することによって機能する。
本稿では,時間的コヒーレンスを自己指導型補助課題として活用する,時間的一貫性向上学習という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-07-21T19:49:06Z) - Towards an Appropriate Query, Key, and Value Computation for Knowledge
Tracing [2.1541440354538564]
本稿では,知識追跡のためのトランスフォーマーベースモデルSAINTを提案する。
SAINTはエンコーダ・デコーダ構造を持ち、エクササイズと応答埋め込みシーケンスはそれぞれエンコーダとデコーダをそれぞれ別々に入力する。
これは知識追跡のためのエンコーダ・デコーダモデルとして,エクササイズとレスポンスを別々に適用する最初の試みである。
論文 参考訳(メタデータ) (2020-02-14T09:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。