論文の概要: Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction
- arxiv url: http://arxiv.org/abs/2509.05078v1
- Date: Fri, 05 Sep 2025 13:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.594502
- Title: Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction
- Title(参考訳): スケール・インタラクション・トランス:顔の美容予測のためのハイブリッドcnn-transformerモデル
- Authors: Djamel Eddine Boukhari,
- Abstract要約: 本稿では,CNNの機能抽出能力と変換器のリレーショナルモデリング能力とを相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を紹介する。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Facial Beauty Prediction (FBP) is a challenging computer vision task due to the complex interplay of local and global facial features that influence human perception. While Convolutional Neural Networks (CNNs) excel at feature extraction, they often process information at a fixed scale, potentially overlooking the critical inter-dependencies between features at different levels of granularity. To address this limitation, we introduce the Scale-Interaction Transformer (SIT), a novel hybrid deep learning architecture that synergizes the feature extraction power of CNNs with the relational modeling capabilities of Transformers. The SIT first employs a multi-scale module with parallel convolutions to capture facial characteristics at varying receptive fields. These multi-scale representations are then framed as a sequence and processed by a Transformer encoder, which explicitly models their interactions and contextual relationships via a self-attention mechanism. We conduct extensive experiments on the widely-used SCUT-FBP5500 benchmark dataset, where the proposed SIT model establishes a new state-of-the-art. It achieves a Pearson Correlation of 0.9187, outperforming previous methods. Our findings demonstrate that explicitly modeling the interplay between multi-scale visual cues is crucial for high-performance FBP. The success of the SIT architecture highlights the potential of hybrid CNN-Transformer models for complex image regression tasks that demand a holistic, context-aware understanding.
- Abstract(参考訳): FBP(Automated Facial Beauty Prediction)は、人間の知覚に影響を与える局所的およびグローバルな顔の特徴の複雑な相互作用のため、コンピュータビジョンの課題である。
畳み込みニューラルネットワーク(CNN)は特徴抽出に優れていますが、しばしば一定のスケールで情報を処理します。
この制限に対処するため,我々は,CNNの機能抽出能力と変換器のリレーショナルモデリング能力を相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を導入する。
SITはまず、様々な受容領域における顔の特徴を捉えるために、並列畳み込みを備えたマルチスケールモジュールを使用する。
これらのマルチスケール表現はシーケンスとしてフレーム化され、Transformerエンコーダによって処理される。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
ピアソン相関は0.9187であり、従来の手法よりも優れていた。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
SITアーキテクチャの成功は、包括的でコンテキスト対応の理解を必要とする複雑な画像回帰タスクのためのハイブリッドCNN-Transformerモデルの可能性を強調している。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
本稿では、SASQuaT(Self-Attention Sequential Quantum Transformer Channel)という変分量子回路アーキテクチャを提案する。
提案手法は、単純なゲート演算と多次元量子フーリエ変換を用いたビジョントランスフォーマーネットワークの予測におけるカーネルベース演算子学習の最近の知見を活用する。
提案手法の有効性を検証するため,9量子ビットと少数のパラメータしか持たず,手書き桁のグレースケール画像を高い精度で同時に埋め込み,分類することが可能な画像分類タスクをシミュレーションおよびハードウェアで検討した。
論文 参考訳(メタデータ) (2024-03-21T18:00:04Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。