論文の概要: CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation
- arxiv url: http://arxiv.org/abs/2312.01758v3
- Date: Sat, 31 Aug 2024 12:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:02:40.452271
- Title: CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation
- Title(参考訳): CILF-CIAE: 逆年齢推定の補正のためのCLIP駆動画像言語融合
- Authors: Yuntao Shou, Wei Ai, Tao Meng, Nan Yin, Keqin Li,
- Abstract要約: 年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。
既存のCLIPベースの年齢推定手法では、高いメモリ使用量が必要であり、エラーフィードバック機構が欠如している。
逆年齢推定(CILF-CIAE)のための新しいCLIP駆動画像言語融合法を提案する。
- 参考スコア(独自算出の注目度): 14.639340916340801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The age estimation task aims to predict the age of an individual by analyzing facial features in an image. The development of age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.). In recent years, contrastive language-image pre-training (CLIP) has been widely used in various multimodal tasks and has made some progress in the field of age estimation. However, existing CLIP-based age estimation methods require high memory usage (quadratic complexity) when globally modeling images, and lack an error feedback mechanism to prompt the model about the quality of age prediction results. To tackle the above issues, we propose a novel CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation (CILF-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Compared with the quadratic complexity of the attention mechanism, the proposed Fourierformer is of linear log complexity. To further narrow the semantic gap between image and text features, we utilize an efficient contrastive multimodal learning module that supervises the multimodal fusion process of FourierFormer through contrastive loss for image-text matching, thereby improving the interaction effect between different modalities. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CILF-CIAE has achieved better age prediction results.
- Abstract(参考訳): 年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。
年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させることができる。
近年, 言語画像事前学習(CLIP)は多モーダルなタスクに広く使われており, 年齢推定の分野では進歩している。
しかし、既存のCLIPベースの年齢推定手法では、画像のグローバルなモデリングにはメモリ使用量(二次的複雑さ)が高く、年齢予測結果の品質に関するモデルを促すためのエラーフィードバック機構が欠如している。
以上の課題に対処するために,新しいCLIP駆動画像言語融合(CILF-CIAE)を提案する。
具体的には、まずCLIPモデルを導入し、画像の特徴とテキストの意味情報を抽出し、それらを高度にセマンティックに整合した高次元特徴空間にマッピングする。
次に、画像のチャネル進化と空間的相互作用を実現し、画像とテキストの意味情報を融合するトランスフォーマーアーキテクチャ(FourierFormer)を設計した。
注意機構の二次的複雑さと比較すると、提案されたフーリエフォーマーは線形ログ複雑性である。
画像とテキストの特徴間のセマンティックなギャップをさらに狭めるために,FourierFormerのマルチモーダル融合プロセスの監督を行う効率的なコントラッシブ・マルチモーダル学習モジュールを利用する。
最後に, 年齢予測の誤差率を低減するために, エンドツーエンドの誤差フィードバックを用いた可逆年齢推定手法を提案する。
複数のデータセットに関する広範な実験を通じて、CILF-CIAEはより優れた年齢予測結果を得た。
関連論文リスト
- A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation [13.197551708300345]
本稿では,年齢推定のためのマルチビューマスクコントラスト学習グラフ畳み込みニューラルネットワーク(MMCL-GCN)を提案する。
MMCL-GCNネットワークの全体構造は特徴抽出段階と年齢推定段階を含む。
MMCL-GCNは,ベンチマークデータセットの年齢推定誤差を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2024-07-23T07:17:46Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Pluralistic Aging Diffusion Autoencoder [63.50599304294062]
顔の老化は、複数のプラプシブルな老化パターンが与えられた入力に対応する可能性があるため、不適切な問題である。
本稿では,CLIP駆動型多言語時効拡散オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:20:14Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - Hierarchical Attention-based Age Estimation and Bias Estimation [16.335191345543063]
顔画像に基づく年齢推定のための新しい深層学習手法を提案する。
提案手法は,現代的スキームを上回り,新しい最先端の年齢推定精度を提供する。
論文 参考訳(メタデータ) (2021-03-17T19:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。