論文の概要: CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age
Estimation
- arxiv url: http://arxiv.org/abs/2312.01758v1
- Date: Mon, 4 Dec 2023 09:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:40:43.542709
- Title: CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age
Estimation
- Title(参考訳): CZL-CIAE:CLIP駆動ゼロショット学習による逆年齢推定の補正
- Authors: Yuntao Shou, Wei Ai, Tao Meng, Keqin Li
- Abstract要約: 逆年齢推定(CZL-CIAE)のための新しいCLIP駆動ゼロショット学習法を提案する。
画像特徴とテキスト意味情報をそれぞれ抽出するCLIPモデルを導入し、それらを高度にセマンティックに整合した高次元特徴空間にマッピングする。
次に,画像のチャネル進化と空間的相互作用を実現するための新しいトランスフォーマーアーキテクチャを設計した。
最後に, 年齢予測の誤差率を低減するために, エンドツーエンドの誤差フィードバックを用いた可逆年齢推定手法を提案する。
- 参考スコア(独自算出の注目度): 15.4676247289299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot age estimation aims to learn feature information about age from
input images and make inferences about a given person's image or video frame
without specific sample data. The development of zero-shot age estimation can
improve the efficiency and accuracy of various applications (e.g., age
verification and secure access control, etc.), while also promoting research on
multi-modal and zero-shot learning in the social media field. For example,
zero-sample age estimation can be used to create social networks focused on
specific age groups. However, existing methods mainly focus on supervised,
labeled age estimation learning, and the prediction effect of zero-shot
learning is very poor. To tackle the above issues, we propose a novel
CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation
(CZL-CIAE). Specifically, we first introduce the CLIP model to extract image
features and text semantic information respectively, and map them into a highly
semantically aligned high-dimensional feature space. Next, we designed a new
Transformer architecture (i.e., FourierFormer) to achieve channel evolution and
spatial interaction of images, and to fuse image and text semantic information.
Finally, we introduce reversible age estimation, which uses end-to-end error
feedback to reduce the error rate of age predictions. Through extensive
experiments on multiple data sets, CZL-CIAE has achieved better age prediction
results.
- Abstract(参考訳): ゼロショット年齢推定は、入力画像から年齢の特徴情報を学び、特定のサンプルデータなしでその人の画像やビデオフレームの推測を行うことを目的としている。
ゼロショット年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させるとともに、ソーシャルメディア分野におけるマルチモーダルおよびゼロショット学習の研究を促進する。
例えば、ゼロサンプル年齢推定は、特定の年齢グループに焦点を当てたソーシャルネットワークの作成に使用できる。
しかし,従来の手法では教師付き,ラベル付き年齢推定学習が中心であり,ゼロショット学習の予測効果は極めて低い。
以上の課題に対処するため,CLIPによる逆年齢推定のためのゼロショット学習(CZL-CIAE)を提案する。
具体的には,まずクリップモデルを導入し,画像特徴とテキスト意味情報をそれぞれ抽出し,高度にセマンティクス的に整列した高次元特徴空間にマップする。
次に,画像のチャネル進化と空間的相互作用を実現し,画像とテキストのセマンティクス情報を融合するために,新しいトランスフォーマーアーキテクチャ(すなわちフーリエフォーマー)を設計した。
最後に、年齢予測の誤差率を低減するためにエンドツーエンドの誤差フィードバックを用いた可逆年齢推定を導入する。
複数のデータセットに関する広範な実験を通じて、CZL-CIAEはより優れた年齢予測結果を得た。
関連論文リスト
- A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation [13.197551708300345]
本稿では,年齢推定のためのマルチビューマスクコントラスト学習グラフ畳み込みニューラルネットワーク(MMCL-GCN)を提案する。
MMCL-GCNネットワークの全体構造は特徴抽出段階と年齢推定段階を含む。
MMCL-GCNは,ベンチマークデータセットの年齢推定誤差を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2024-07-23T07:17:46Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Pluralistic Aging Diffusion Autoencoder [63.50599304294062]
顔の老化は、複数のプラプシブルな老化パターンが与えられた入力に対応する可能性があるため、不適切な問題である。
本稿では,CLIP駆動型多言語時効拡散オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:20:14Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - Hierarchical Attention-based Age Estimation and Bias Estimation [16.335191345543063]
顔画像に基づく年齢推定のための新しい深層学習手法を提案する。
提案手法は,現代的スキームを上回り,新しい最先端の年齢推定精度を提供する。
論文 参考訳(メタデータ) (2021-03-17T19:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。