Fugu-MT 論文翻訳(概要): CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation

論文の概要: CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation

arxiv url: http://arxiv.org/abs/2312.01758v1
Date: Mon, 4 Dec 2023 09:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:40:43.542709
Title: CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation
Title（参考訳）: CZL-CIAE:CLIP駆動ゼロショット学習による逆年齢推定の補正
Authors: Yuntao Shou, Wei Ai, Tao Meng, Keqin Li
Abstract要約: 逆年齢推定(CZL-CIAE)のための新しいCLIP駆動ゼロショット学習法を提案する。画像特徴とテキスト意味情報をそれぞれ抽出するCLIPモデルを導入し、それらを高度にセマンティックに整合した高次元特徴空間にマッピングする。次に,画像のチャネル進化と空間的相互作用を実現するための新しいトランスフォーマーアーキテクチャを設計した。最後に, 年齢予測の誤差率を低減するために, エンドツーエンドの誤差フィードバックを用いた可逆年齢推定手法を提案する。
参考スコア（独自算出の注目度）: 15.4676247289299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot age estimation aims to learn feature information about age from input images and make inferences about a given person's image or video frame without specific sample data. The development of zero-shot age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.), while also promoting research on multi-modal and zero-shot learning in the social media field. For example, zero-sample age estimation can be used to create social networks focused on specific age groups. However, existing methods mainly focus on supervised, labeled age estimation learning, and the prediction effect of zero-shot learning is very poor. To tackle the above issues, we propose a novel CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation (CZL-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CZL-CIAE has achieved better age prediction results.
Abstract（参考訳）: ゼロショット年齢推定は、入力画像から年齢の特徴情報を学び、特定のサンプルデータなしでその人の画像やビデオフレームの推測を行うことを目的としている。ゼロショット年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させるとともに、ソーシャルメディア分野におけるマルチモーダルおよびゼロショット学習の研究を促進する。例えば、ゼロサンプル年齢推定は、特定の年齢グループに焦点を当てたソーシャルネットワークの作成に使用できる。しかし,従来の手法では教師付き,ラベル付き年齢推定学習が中心であり,ゼロショット学習の予測効果は極めて低い。以上の課題に対処するため,CLIPによる逆年齢推定のためのゼロショット学習(CZL-CIAE)を提案する。具体的には,まずクリップモデルを導入し,画像特徴とテキスト意味情報をそれぞれ抽出し,高度にセマンティクス的に整列した高次元特徴空間にマップする。次に,画像のチャネル進化と空間的相互作用を実現し,画像とテキストのセマンティクス情報を融合するために,新しいトランスフォーマーアーキテクチャ(すなわちフーリエフォーマー)を設計した。最後に、年齢予測の誤差率を低減するためにエンドツーエンドの誤差フィードバックを用いた可逆年齢推定を導入する。複数のデータセットに関する広範な実験を通じて、CZL-CIAEはより優れた年齢予測結果を得た。

関連論文リスト

A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation [13.197551708300345]
本稿では,年齢推定のためのマルチビューマスクコントラスト学習グラフ畳み込みニューラルネットワーク(MMCL-GCN)を提案する。 MMCL-GCNネットワークの全体構造は特徴抽出段階と年齢推定段階を含む。 MMCL-GCNは,ベンチマークデータセットの年齢推定誤差を効果的に低減できることを示す。
論文参考訳（メタデータ） (2024-07-23T07:17:46Z)
Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文参考訳（メタデータ） (2024-07-19T12:22:32Z)
Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-16T15:53:21Z)
Pluralistic Aging Diffusion Autoencoder [63.50599304294062]
顔の老化は、複数のプラプシブルな老化パターンが与えられた入力に対応する可能性があるため、不適切な問題である。本稿では,CLIP駆動型多言語時効拡散オートエンコーダを提案する。
論文参考訳（メタデータ） (2023-03-20T13:20:14Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)
FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文参考訳（メタデータ） (2021-06-21T14:31:32Z)
Hierarchical Attention-based Age Estimation and Bias Estimation [16.335191345543063]
顔画像に基づく年齢推定のための新しい深層学習手法を提案する。提案手法は,現代的スキームを上回り,新しい最先端の年齢推定精度を提供する。
論文参考訳（メタデータ） (2021-03-17T19:41:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。