論文の概要: FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images
- arxiv url: http://arxiv.org/abs/2309.13601v2
- Date: Sat, 13 Jul 2024 19:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 04:48:58.715882
- Title: FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images
- Title(参考訳): FaceGemma: ポートレート画像のための顔属性による画像キャプションの強化
- Authors: Naimul Haque, Iffat Labiba, Sadia Akter,
- Abstract要約: FaceGemmaは感情、表情、特徴などの顔の特徴を正確に記述するモデルである。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated image caption generation is essential for improving the accessibility and understanding of visual content. In this study, we introduce FaceGemma, a model that accurately describes facial attributes such as emotions, expressions, and features. Using FaceAttdb data, we generated descriptions for 2000 faces with the Llama 3 - 70B model and fine-tuned the PaliGemma model with these descriptions. Based on the attributes and captions supplied in FaceAttDB, we created a new description dataset where each description perfectly depicts the human-annotated attributes, including key features like attractiveness, full lips, big nose, blond hair, brown hair, bushy eyebrows, eyeglasses, male, smile, and youth. This detailed approach ensures that the generated descriptions are closely aligned with the nuanced visual details present in the images. Our FaceGemma model leverages an innovative approach to image captioning by using annotated attributes, human-annotated captions, and prompt engineering to produce high-quality facial descriptions. Our method significantly improved caption quality, achieving an average BLEU-1 score of 0.364 and a METEOR score of 0.355. These metrics demonstrate the effectiveness of incorporating facial attributes into image captioning, providing more accurate and descriptive captions for portrait images.
- Abstract(参考訳): 視覚的コンテンツのアクセシビリティと理解を向上させるためには,自動キャプション生成が不可欠である。
本研究では,感情や表情,特徴などの顔の特徴を正確に記述するモデルであるFaceGemmaを紹介する。
FaceAttdbデータを用いて2000面のLlama 3-70Bモデルで記述を生成し,これらの記述でPaliGemmaモデルを微調整した。
FaceAttDBで提供される属性とキャプションに基づいて、私たちは新しい説明データセットを作成しました。それぞれの説明には、魅力、完全な唇、大きな鼻、ブロンドの髪、茶色の髪、毛むくじゃらのまぶしさ、眼鏡、男性、笑顔、青春といった重要な特徴が含まれています。
この詳細なアプローチは、生成した記述が、画像に存在する微妙な視覚的詳細と密接に一致していることを保証する。
当社のFaceGemmaモデルは,アノテート属性,ヒューマンアノテートキャプションを用いて,画像キャプションに革新的なアプローチを取り入れ,高品質な顔記述を実現する。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
これらの指標は、顔の属性を画像キャプションに組み込むことの有効性を示し、肖像画のより正確で記述的なキャプションを提供する。
関連論文リスト
- 15M Multimodal Facial Image-Text Dataset [5.552727861734425]
FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されている。
画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
論文 参考訳(メタデータ) (2024-07-11T14:00:14Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Evaluating Pragmatic Abilities of Image Captioners on A3DS [3.42658286826597]
我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。
マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。
モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
論文 参考訳(メタデータ) (2023-05-22T07:15:33Z) - Explaining Bias in Deep Face Recognition via Image Characteristics [9.569575076277523]
2つのデータセットのセキュリティとユーザビリティの観点から,10種類の最先端の顔認識モデルを評価し,その妥当性を比較した。
次に,画像特性がモデル性能に与える影響を解析する。
論文 参考訳(メタデータ) (2022-08-23T17:18:23Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - Attributes Aware Face Generation with Generative Adversarial Networks [133.44359317633686]
AFGANと呼ばれる生成対向ネットワークを用いた新しい属性認識顔画像生成法を提案する。
3つの積み重ねたジェネレータは、それぞれ64ドル640ドル、128ドル128ドル、256ドル256ドルの解像度の顔画像を生成する。
さらに、生成した画像と入力属性の相関性を高めるために、画像-属性マッチング損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:25:50Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - MUSE: Textual Attributes Guided Portrait Painting Generation [58.309932745538624]
ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-11-09T21:05:21Z) - Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach [84.22327278486846]
本稿では,画像から画像への変換に基づく新しい教師なしの手法を提案する。
本モデルは視覚的属性から画像内容を切り離し,テキスト記述を用いて後者を変更することを学習する。
実験により,提案モデルが2つの大規模公開データセットに対して有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2020-08-10T15:40:05Z) - Explainable Face Recognition [4.358626952482686]
本稿では,説明可能な顔認識のための総合的なベンチマークとベースライン評価を行う。
95人の被験者からなる3648個の三つ子(プローブ,配偶子,非配偶子)のキュレートしたセットである「インペイントゲーム」と呼ばれる新しい評価プロトコルを定義した。
探索画像内のどの領域が交配画像と一致しているかを最もよく説明するネットワークアテンションマップを生成するための説明可能なフェイスマーカを課題とする。
論文 参考訳(メタデータ) (2020-08-03T14:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。