論文の概要: Face2Text revisited: Improved data set and baseline results
- arxiv url: http://arxiv.org/abs/2205.12342v1
- Date: Tue, 24 May 2022 19:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:30:50.079602
- Title: Face2Text revisited: Improved data set and baseline results
- Title(参考訳): face2textの再訪: データセットとベースライン結果の改善
- Authors: Marc Tanti, Shaun Abdilla, Adrian Muscat, Claudia Borg, Reuben A.
Farrugia, Albert Gatt
- Abstract要約: 我々はCelebA画像データセットに基づく顔記述の新しいデータセットを開発する。
本稿では,VGGFace/ResNet CNNからの転送学習の実現可能性について検討する。
VGGFace-LSTM + Attentionモデルによって生成された記述は、人間による評価により、基底真実に最も近い。
- 参考スコア(独自算出の注目度): 10.226004038991194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image description generation models do not transfer well to the task
of describing human faces. To encourage the development of more human-focused
descriptions, we developed a new data set of facial descriptions based on the
CelebA image data set. We describe the properties of this data set, and present
results from a face description generator trained on it, which explores the
feasibility of using transfer learning from VGGFace/ResNet CNNs. Comparisons
are drawn through both automated metrics and human evaluation by 76
English-speaking participants. The descriptions generated by the VGGFace-LSTM +
Attention model are closest to the ground truth according to human evaluation
whilst the ResNet-LSTM + Attention model obtained the highest CIDEr and CIDEr-D
results (1.252 and 0.686 respectively). Together, the new data set and these
experimental results provide data and baselines for future work in this area.
- Abstract(参考訳): 現在の画像記述生成モデルは、人間の顔を記述するタスクにうまく移行しません。
より人間に焦点を絞った説明の展開を促進するために,celeba画像データセットに基づく新たな表情記述データセットを開発した。
本稿では,このデータセットの特性について述べるとともに,vggface/resnet cnnからの転送学習の実現可能性について検討した。
比較は、76人の英語話者による自動測定と人的評価によって引き起こされる。
VGGFace-LSTM + Attentionモデルが生成した記述は、人間による評価に最も近いが、ResNet-LSTM + Attentionモデルは最高CIDErとCIDEr-D(それぞれ52と0.686)を得た。
新しいデータセットとこれらの実験結果は、この分野における将来の作業のためのデータとベースラインを提供する。
関連論文リスト
- Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。
このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。
また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:48:40Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2381492754749632]
本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文 参考訳(メタデータ) (2024-05-26T09:16:34Z) - SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。
近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。
本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。
SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文 参考訳(メタデータ) (2024-04-06T10:30:31Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文 参考訳(メタデータ) (2024-02-15T14:46:03Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。