論文の概要: Face2Text revisited: Improved data set and baseline results
- arxiv url: http://arxiv.org/abs/2205.12342v1
- Date: Tue, 24 May 2022 19:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:30:50.079602
- Title: Face2Text revisited: Improved data set and baseline results
- Title(参考訳): face2textの再訪: データセットとベースライン結果の改善
- Authors: Marc Tanti, Shaun Abdilla, Adrian Muscat, Claudia Borg, Reuben A.
Farrugia, Albert Gatt
- Abstract要約: 我々はCelebA画像データセットに基づく顔記述の新しいデータセットを開発する。
本稿では,VGGFace/ResNet CNNからの転送学習の実現可能性について検討する。
VGGFace-LSTM + Attentionモデルによって生成された記述は、人間による評価により、基底真実に最も近い。
- 参考スコア(独自算出の注目度): 10.226004038991194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image description generation models do not transfer well to the task
of describing human faces. To encourage the development of more human-focused
descriptions, we developed a new data set of facial descriptions based on the
CelebA image data set. We describe the properties of this data set, and present
results from a face description generator trained on it, which explores the
feasibility of using transfer learning from VGGFace/ResNet CNNs. Comparisons
are drawn through both automated metrics and human evaluation by 76
English-speaking participants. The descriptions generated by the VGGFace-LSTM +
Attention model are closest to the ground truth according to human evaluation
whilst the ResNet-LSTM + Attention model obtained the highest CIDEr and CIDEr-D
results (1.252 and 0.686 respectively). Together, the new data set and these
experimental results provide data and baselines for future work in this area.
- Abstract(参考訳): 現在の画像記述生成モデルは、人間の顔を記述するタスクにうまく移行しません。
より人間に焦点を絞った説明の展開を促進するために,celeba画像データセットに基づく新たな表情記述データセットを開発した。
本稿では,このデータセットの特性について述べるとともに,vggface/resnet cnnからの転送学習の実現可能性について検討した。
比較は、76人の英語話者による自動測定と人的評価によって引き起こされる。
VGGFace-LSTM + Attentionモデルが生成した記述は、人間による評価に最も近いが、ResNet-LSTM + Attentionモデルは最高CIDErとCIDEr-D(それぞれ52と0.686)を得た。
新しいデータセットとこれらの実験結果は、この分野における将来の作業のためのデータとベースラインを提供する。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2381492754749632]
本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文 参考訳(メタデータ) (2024-05-26T09:16:34Z) - SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。
近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。
本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。
SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文 参考訳(メタデータ) (2024-04-06T10:30:31Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。