Fugu-MT 論文翻訳(概要): Face2Text revisited: Improved data set and baseline results

論文の概要: Face2Text revisited: Improved data set and baseline results

arxiv url: http://arxiv.org/abs/2205.12342v1
Date: Tue, 24 May 2022 19:38:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 15:30:50.079602
Title: Face2Text revisited: Improved data set and baseline results
Title（参考訳）: face2textの再訪: データセットとベースライン結果の改善
Authors: Marc Tanti, Shaun Abdilla, Adrian Muscat, Claudia Borg, Reuben A. Farrugia, Albert Gatt
Abstract要約: 我々はCelebA画像データセットに基づく顔記述の新しいデータセットを開発する。本稿では,VGGFace/ResNet CNNからの転送学習の実現可能性について検討する。 VGGFace-LSTM + Attentionモデルによって生成された記述は、人間による評価により、基底真実に最も近い。
参考スコア（独自算出の注目度）: 10.226004038991194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current image description generation models do not transfer well to the task of describing human faces. To encourage the development of more human-focused descriptions, we developed a new data set of facial descriptions based on the CelebA image data set. We describe the properties of this data set, and present results from a face description generator trained on it, which explores the feasibility of using transfer learning from VGGFace/ResNet CNNs. Comparisons are drawn through both automated metrics and human evaluation by 76 English-speaking participants. The descriptions generated by the VGGFace-LSTM + Attention model are closest to the ground truth according to human evaluation whilst the ResNet-LSTM + Attention model obtained the highest CIDEr and CIDEr-D results (1.252 and 0.686 respectively). Together, the new data set and these experimental results provide data and baselines for future work in this area.
Abstract（参考訳）: 現在の画像記述生成モデルは、人間の顔を記述するタスクにうまく移行しません。より人間に焦点を絞った説明の展開を促進するために,celeba画像データセットに基づく新たな表情記述データセットを開発した。本稿では,このデータセットの特性について述べるとともに,vggface/resnet cnnからの転送学習の実現可能性について検討した。比較は、76人の英語話者による自動測定と人的評価によって引き起こされる。 VGGFace-LSTM + Attentionモデルが生成した記述は、人間による評価に最も近いが、ResNet-LSTM + Attentionモデルは最高CIDErとCIDEr-D(それぞれ52と0.686)を得た。新しいデータセットとこれらの実験結果は、この分野における将来の作業のためのデータとベースラインを提供する。

関連論文リスト

Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文参考訳（メタデータ） (2025-02-03T14:48:40Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。 DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文参考訳（メタデータ） (2024-07-15T17:10:31Z)
Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2381492754749632]
本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文参考訳（メタデータ） (2024-05-26T09:16:34Z)
SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。 SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文参考訳（メタデータ） (2024-04-06T10:30:31Z)
Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Data Augmentation and Transfer Learning Approaches Applied to Facial Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文参考訳（メタデータ） (2024-02-15T14:46:03Z)
Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文参考訳（メタデータ） (2023-11-10T18:38:14Z)
Facial Emotion Recognition using Deep Residual Networks in Real-World Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文参考訳（メタデータ） (2021-11-04T10:08:22Z)
Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文参考訳（メタデータ） (2020-06-21T10:29:36Z)
SimAug: Learning Robust Representations from Simulation for Trajectory Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文参考訳（メタデータ） (2020-04-04T21:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。