論文の概要: Facial Expression Recognition and Image Description Generation in
Vietnamese
- arxiv url: http://arxiv.org/abs/2208.06117v1
- Date: Fri, 12 Aug 2022 04:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:22:51.423449
- Title: Facial Expression Recognition and Image Description Generation in
Vietnamese
- Title(参考訳): ベトナムにおける表情認識と画像記述生成
- Authors: Khang Nhut Lam, Kim-Ngoc Thi Nguyen, Loc Huu Nguy, and Jugal Kalita
- Abstract要約: YOLOv5は感情認識のための従来のCNNよりも優れた結果が得られることを示す。
統合アーキテクチャに基づく画像記述生成モデルを提案する。
すべてのモデルの結果を組み合わせて、画像内の視覚的内容と人間の感情を記述する文を作成します。
- 参考スコア(独自算出の注目度): 1.9249287163937974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper discusses a facial expression recognition model and a description
generation model to build descriptive sentences for images and facial
expressions of people in images. Our study shows that YOLOv5 achieves better
results than a traditional CNN for all emotions on the KDEF dataset. In
particular, the accuracies of the CNN and YOLOv5 models for emotion recognition
are 0.853 and 0.938, respectively. A model for generating descriptions for
images based on a merged architecture is proposed using VGG16 with the
descriptions encoded over an LSTM model. YOLOv5 is also used to recognize
dominant colors of objects in the images and correct the color words in the
descriptions generated if it is necessary. If the description contains words
referring to a person, we recognize the emotion of the person in the image.
Finally, we combine the results of all models to create sentences that describe
the visual content and the human emotions in the images. Experimental results
on the Flickr8k dataset in Vietnamese achieve BLEU-1, BLEU-2, BLEU-3, BLEU-4
scores of 0.628; 0.425; 0.280; and 0.174, respectively.
- Abstract(参考訳): 本稿では,画像中の人物の表情と表情の記述文を構築するための表情認識モデルと記述生成モデルについて述べる。
KDEFデータセット上のすべての感情に対して、YOLOv5は従来のCNNよりも優れた結果が得られることを示す。
特に、感情認識のためのCNNモデルとYOLOv5モデルの精度は0.853と0.938である。
LSTMモデル上にエンコードされた記述を用いたVGG16を用いて,統合アーキテクチャに基づく画像の記述を生成するモデルを提案する。
YOLOv5はまた、画像内のオブジェクトの圧倒的な色を認識し、必要であれば生成された記述中の色語を修正するために使われる。
説明文に人物を参照する単語が含まれている場合、画像中の人物の感情を認識する。
最後に、画像中の視覚内容と人間の感情を記述する文を作成するために、すべてのモデルの結果を組み合わせる。
ベトナムにおけるFlickr8kデータセットの実験結果は、BLEU-1、BLEU-2、BLEU-3、BLEU-4のスコアが0.628、0.425、0.280、0.174となる。
関連論文リスト
- EmoCAM: Toward Understanding What Drives CNN-based Emotion Recognition [3.031375888004876]
他のニューラルネットワークと同様に、それらは"ブラックボックス"モデルであり、説明性に乏しい。
この研究は、画像からの感情認識の特定の下流タスクに関係しており、CAMベースの手法とコーパスレベルでのオブジェクト検出を組み合わせたフレームワークを提案し、特定のモデル、例えばEmoNetでは、イメージに特定の感情を割り当てることに頼っている。
論文 参考訳(メタデータ) (2024-07-19T13:47:02Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images [0.0]
FaceGemmaは感情、表情、特徴などの顔の特徴を正確に記述するモデルである。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
論文 参考訳(メタデータ) (2023-09-24T10:30:22Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。