論文の概要: Cross-modal Multi-task Learning for Graphic Recognition of Caricature
Face
- arxiv url: http://arxiv.org/abs/2003.05787v1
- Date: Tue, 10 Mar 2020 18:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:29:59.041899
- Title: Cross-modal Multi-task Learning for Graphic Recognition of Caricature
Face
- Title(参考訳): 顔のグラフィカル認識のためのクロスモーダルマルチタスク学習
- Authors: Zuheng Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman
- Abstract要約: マルチタスク学習による顔画像認識を実現する手法を提案する。
タスクの重みを固定した従来のマルチタスク学習よりも,タスクの重要性に応じてタスクの重みを学習するアプローチを提案する。
実験結果から, 動的マルチタスク学習の有効性が示された。
- 参考スコア(独自算出の注目度): 3.22983413196157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face recognition of realistic visual images has been well studied and made a
significant progress in the recent decade. Unlike the realistic visual images,
the face recognition of the caricatures is far from the performance of the
visual images. This is largely due to the extreme non-rigid distortions of the
caricatures introduced by exaggerating the facial features to strengthen the
characters. The heterogeneous modalities of the caricatures and the visual
images result the caricature-visual face recognition is a cross-modal problem.
In this paper, we propose a method to conduct caricature-visual face
recognition via multi-task learning. Rather than the conventional multi-task
learning with fixed weights of tasks, this work proposes an approach to learn
the weights of tasks according to the importance of tasks. The proposed
multi-task learning with dynamic tasks weights enables to appropriately train
the hard task and easy task instead of being stuck in the over-training easy
task as conventional methods. The experimental results demonstrate the
effectiveness of the proposed dynamic multi-task learning for cross-modal
caricature-visual face recognition. The performances on the datasets CaVI and
WebCaricature show the superiority over the state-of-art methods.
- Abstract(参考訳): 写実的な視覚画像の顔認識は、近年、よく研究され、大きな進歩を遂げている。
現実的な視覚画像とは異なり、似顔絵の顔認識は視覚画像のパフォーマンスからかけ離れている。
これは、顔の特徴を誇張して文字を強めることによってもたらされた似顔絵の極端な非剛性歪みによるものである。
似顔絵と視覚画像の不均一性から、似顔絵・視覚画像の認識はクロスモーダル問題である。
本稿では,マルチタスク学習による顔画像認識を実現する手法を提案する。
タスクの重みを固定した従来のマルチタスク学習よりも,タスクの重要性に応じてタスクの重みを学習するアプローチを提案する。
提案した動的タスク重み付きマルチタスク学習は,従来の方法のように過度に学習しやすいタスクに留まらず,難易度と難易度を適切にトレーニングすることができる。
提案する動的マルチタスク学習のクロスモーダル・カカチュアル・ビジュアル顔認識における効果を実験的に検証した。
CaVIとWebCaricatureのデータセットのパフォーマンスは、最先端のメソッドよりも優れていることを示している。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - Task Bias in Vision-Language Models [18.025004053980545]
私たちはCLIPモデルを探求し、その視覚的表現が、しばしば他のタスクよりも、いくつかのタスクに強く偏っていることを示す。
この課題バイアスを解決するために,視覚的プロンプトの学習方法を示す。
論文 参考訳(メタデータ) (2022-12-08T17:10:31Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Quality Metric Guided Portrait Line Drawing Generation from Unpaired
Training Data [88.78171717494688]
本研究では,顔画像から肖像画への自動変換手法を提案する。
本手法は,(1)1つのネットワークを用いて複数のスタイルで高品質な肖像画を生成することを学習し,(2)トレーニングデータに見つからない「新しいスタイル」の肖像画を生成する。
論文 参考訳(メタデータ) (2022-02-08T06:49:57Z) - Facial Emotion Recognition: A multi-task approach using deep learning [0.0]
マルチタスク学習アルゴリズムを提案する。一つのCNNが感情とともに対象者の性別、年齢、人種を検出する。
その結果、このアプローチは現在のタスクの最先端技術アルゴリズムよりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2021-10-28T11:23:00Z) - Deep Multi-task Learning for Facial Expression Recognition and Synthesis
Based on Selective Feature Sharing [28.178390846446938]
本稿では,新しい特徴共有手法を提案し,表情認識と表情合成のためのマルチタスクネットワークを構築した。
提案手法は,無用かつ有害な情報をフィルタリングしながら,異なるタスク間で有用な特徴を効果的に伝達することができる。
実験結果から, 提案手法は, 一般的に使用されている表情認識ベンチマークに対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-07-09T02:29:34Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。