論文の概要: Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition
- arxiv url: http://arxiv.org/abs/2402.09982v1
- Date: Thu, 15 Feb 2024 14:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:39:23.659771
- Title: Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition
- Title(参考訳): 表情認識に応用したデータ強化と伝達学習手法
- Authors: Enrico Randellini and Leonardo Rigutini and Claudio Sacca'
- Abstract要約: 本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
- 参考スコア(独自算出の注目度): 0.3481985817302898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The face expression is the first thing we pay attention to when we want to
understand a person's state of mind. Thus, the ability to recognize facial
expressions in an automatic way is a very interesting research field. In this
paper, because the small size of available training datasets, we propose a
novel data augmentation technique that improves the performances in the
recognition task. We apply geometrical transformations and build from scratch
GAN models able to generate new synthetic images for each emotion type. Thus,
on the augmented datasets we fine tune pretrained convolutional neural networks
with different architectures. To measure the generalization ability of the
models, we apply extra-database protocol approach, namely we train models on
the augmented versions of training dataset and test them on two different
databases. The combination of these techniques allows to reach average accuracy
values of the order of 85\% for the InceptionResNetV2 model.
- Abstract(参考訳): 顔の表情は、人間の心の状態を理解したいときに最初に注意を払うものです。
このように、表情を自動的に認識する能力は非常に興味深い研究分野である。
本稿では,利用可能なトレーニングデータセットのサイズが小さいため,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、幾何学的変換を適用し、感情タイプごとに新しい合成画像を生成することができるスクラッチGANモデルを構築した。
したがって、拡張データセット上では、事前学習された畳み込みニューラルネットワークを異なるアーキテクチャで微調整する。
モデルの一般化能力を測定するために,トレーニングデータセットの拡張バージョン上でモデルをトレーニングし,2つの異なるデータベース上でテストする,データベース外プロトコルアプローチを適用した。
これらの手法の組み合わせにより、インセプションresnetv2モデルの平均精度値は85\%に達する。
関連論文リスト
- A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。