論文の概要: Face2Text revisited: Improved data set and baseline results
- arxiv url: http://arxiv.org/abs/2205.12342v1
- Date: Tue, 24 May 2022 19:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:30:50.079602
- Title: Face2Text revisited: Improved data set and baseline results
- Title(参考訳): face2textの再訪: データセットとベースライン結果の改善
- Authors: Marc Tanti, Shaun Abdilla, Adrian Muscat, Claudia Borg, Reuben A.
Farrugia, Albert Gatt
- Abstract要約: 我々はCelebA画像データセットに基づく顔記述の新しいデータセットを開発する。
本稿では,VGGFace/ResNet CNNからの転送学習の実現可能性について検討する。
VGGFace-LSTM + Attentionモデルによって生成された記述は、人間による評価により、基底真実に最も近い。
- 参考スコア(独自算出の注目度): 10.226004038991194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image description generation models do not transfer well to the task
of describing human faces. To encourage the development of more human-focused
descriptions, we developed a new data set of facial descriptions based on the
CelebA image data set. We describe the properties of this data set, and present
results from a face description generator trained on it, which explores the
feasibility of using transfer learning from VGGFace/ResNet CNNs. Comparisons
are drawn through both automated metrics and human evaluation by 76
English-speaking participants. The descriptions generated by the VGGFace-LSTM +
Attention model are closest to the ground truth according to human evaluation
whilst the ResNet-LSTM + Attention model obtained the highest CIDEr and CIDEr-D
results (1.252 and 0.686 respectively). Together, the new data set and these
experimental results provide data and baselines for future work in this area.
- Abstract(参考訳): 現在の画像記述生成モデルは、人間の顔を記述するタスクにうまく移行しません。
より人間に焦点を絞った説明の展開を促進するために,celeba画像データセットに基づく新たな表情記述データセットを開発した。
本稿では,このデータセットの特性について述べるとともに,vggface/resnet cnnからの転送学習の実現可能性について検討した。
比較は、76人の英語話者による自動測定と人的評価によって引き起こされる。
VGGFace-LSTM + Attentionモデルが生成した記述は、人間による評価に最も近いが、ResNet-LSTM + Attentionモデルは最高CIDErとCIDEr-D(それぞれ52と0.686)を得た。
新しいデータセットとこれらの実験結果は、この分野における将来の作業のためのデータとベースラインを提供する。
関連論文リスト
- Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文 参考訳(メタデータ) (2024-02-15T14:46:03Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T14:58:10Z) - My Face My Choice: Privacy Enhancing Deepfakes for Social Media
Anonymization [4.725675279167593]
仮説的ソーシャルネットワークに3つの顔アクセスモデルを導入し、ユーザーが承認した写真にのみ現れる能力を持つ。
我々のアプローチは、現在のタグ付けシステムを廃止し、未承認の顔を定量的に異なるディープフェイクに置き換える。
その結果,7つのSOTA顔認識器を動作させることで,平均精度を61%削減できることがわかった。
論文 参考訳(メタデータ) (2022-11-02T17:58:20Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。