論文の概要: Facial Expression Recognition and Image Description Generation in
Vietnamese
- arxiv url: http://arxiv.org/abs/2208.06117v1
- Date: Fri, 12 Aug 2022 04:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:22:51.423449
- Title: Facial Expression Recognition and Image Description Generation in
Vietnamese
- Title(参考訳): ベトナムにおける表情認識と画像記述生成
- Authors: Khang Nhut Lam, Kim-Ngoc Thi Nguyen, Loc Huu Nguy, and Jugal Kalita
- Abstract要約: YOLOv5は感情認識のための従来のCNNよりも優れた結果が得られることを示す。
統合アーキテクチャに基づく画像記述生成モデルを提案する。
すべてのモデルの結果を組み合わせて、画像内の視覚的内容と人間の感情を記述する文を作成します。
- 参考スコア(独自算出の注目度): 1.9249287163937974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper discusses a facial expression recognition model and a description
generation model to build descriptive sentences for images and facial
expressions of people in images. Our study shows that YOLOv5 achieves better
results than a traditional CNN for all emotions on the KDEF dataset. In
particular, the accuracies of the CNN and YOLOv5 models for emotion recognition
are 0.853 and 0.938, respectively. A model for generating descriptions for
images based on a merged architecture is proposed using VGG16 with the
descriptions encoded over an LSTM model. YOLOv5 is also used to recognize
dominant colors of objects in the images and correct the color words in the
descriptions generated if it is necessary. If the description contains words
referring to a person, we recognize the emotion of the person in the image.
Finally, we combine the results of all models to create sentences that describe
the visual content and the human emotions in the images. Experimental results
on the Flickr8k dataset in Vietnamese achieve BLEU-1, BLEU-2, BLEU-3, BLEU-4
scores of 0.628; 0.425; 0.280; and 0.174, respectively.
- Abstract(参考訳): 本稿では,画像中の人物の表情と表情の記述文を構築するための表情認識モデルと記述生成モデルについて述べる。
KDEFデータセット上のすべての感情に対して、YOLOv5は従来のCNNよりも優れた結果が得られることを示す。
特に、感情認識のためのCNNモデルとYOLOv5モデルの精度は0.853と0.938である。
LSTMモデル上にエンコードされた記述を用いたVGG16を用いて,統合アーキテクチャに基づく画像の記述を生成するモデルを提案する。
YOLOv5はまた、画像内のオブジェクトの圧倒的な色を認識し、必要であれば生成された記述中の色語を修正するために使われる。
説明文に人物を参照する単語が含まれている場合、画像中の人物の感情を認識する。
最後に、画像中の視覚内容と人間の感情を記述する文を作成するために、すべてのモデルの結果を組み合わせる。
ベトナムにおけるFlickr8kデータセットの実験結果は、BLEU-1、BLEU-2、BLEU-3、BLEU-4のスコアが0.628、0.425、0.280、0.174となる。
関連論文リスト
- Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文 参考訳(メタデータ) (2023-09-22T18:44:34Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Evaluating Pragmatic Abilities of Image Captioners on A3DS [3.42658286826597]
我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。
マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。
モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
論文 参考訳(メタデータ) (2023-05-22T07:15:33Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文 参考訳(メタデータ) (2021-02-03T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。