論文の概要: VM-BeautyNet: A Synergistic Ensemble of Vision Transformer and Mamba for Facial Beauty Prediction
- arxiv url: http://arxiv.org/abs/2510.16220v1
- Date: Fri, 17 Oct 2025 21:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.904465
- Title: VM-BeautyNet: A Synergistic Ensemble of Vision Transformer and Mamba for Facial Beauty Prediction
- Title(参考訳): VM-BeautyNet: 顔の美容予測のための視覚変換器とマンバの相乗的アンサンブル
- Authors: Djamel Eddine Boukhari,
- Abstract要約: 本稿では,視覚変換器とマンバベースビジョンモデルの相補的強みを融合した,新しい異種アンサンブルアーキテクチャであるtextbfVM-BeautyNetを提案する。
提案したVM-BeautyNetは,textbfPearson correlation (PC)が0.9212, textbfMean Absolute Error (MAE)が0.2085, textbfRoot Mean Square Error (RMSE)が0.2698で,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Beauty Prediction (FBP) is a complex and challenging computer vision task, aiming to model the subjective and intricate nature of human aesthetic perception. While deep learning models, particularly Convolutional Neural Networks (CNNs), have made significant strides, they often struggle to capture the global, holistic facial features that are critical to human judgment. Vision Transformers (ViT) address this by effectively modeling long-range spatial relationships, but their quadratic complexity can be a bottleneck. This paper introduces a novel, heterogeneous ensemble architecture, \textbf{VM-BeautyNet}, that synergistically fuses the complementary strengths of a Vision Transformer and a Mamba-based Vision model, a recent advancement in State-Space Models (SSMs). The ViT backbone excels at capturing global facial structure and symmetry, while the Mamba backbone efficiently models long-range dependencies with linear complexity, focusing on sequential features and textures. We evaluate our approach on the benchmark SCUT-FBP5500 dataset. Our proposed VM-BeautyNet achieves state-of-the-art performance, with a \textbf{Pearson Correlation (PC) of 0.9212}, a \textbf{Mean Absolute Error (MAE) of 0.2085}, and a \textbf{Root Mean Square Error (RMSE) of 0.2698}. Furthermore, through Grad-CAM visualizations, we provide interpretability analysis that confirms the complementary feature extraction of the two backbones, offering new insights into the model's decision-making process and presenting a powerful new architectural paradigm for computational aesthetics.
- Abstract(参考訳): FBP(Facial Beauty Prediction)は、人間の美的知覚の主観的かつ複雑な性質をモデル化することを目的とした、複雑で挑戦的なコンピュータビジョンタスクである。
ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は大きな進歩を遂げているが、人間の判断に不可欠なグローバルで全体論的顔の特徴を捉えるのに苦労することが多い。
視覚変換器(ViT)は、長距離空間関係を効果的にモデル化することでこの問題に対処するが、その2次複雑性はボトルネックとなる可能性がある。
本稿では,視覚変換器とマンバベースビジョンモデルの相補的強みを相乗的に融合させる,新しい異種アンサンブルアーキテクチャである「textbf{VM-BeautyNet}」を紹介する。
ViTのバックボーンは、グローバルな顔の構造と対称性を捉えるのに優れており、Mambaのバックボーンは、連続的な特徴とテクスチャに焦点をあてて、線形の複雑さを伴う長距離依存を効率的にモデル化している。
ベンチマークSCUT-FBP5500データセットについて検討した。
提案した VM-BeautyNet は,0.9212} の \textbf{Pearson correlation (PC) ,0.2085} の \textbf{Mean Absolute Error (MAE) ,0.2698} の \textbf{Root Mean Square Error (RMSE) を用いて,最先端の性能を実現する。
さらに、Grad-CAM視覚化を通じて、2つのバックボーンの補完的な特徴抽出を確認し、モデルの意思決定プロセスに関する新たな洞察を提供し、計算美学のための強力なアーキテクチャパラダイムを提供する。
関連論文リスト
- FairViT-GAN: A Hybrid Vision Transformer with Adversarial Debiasing for Fair and Explainable Facial Beauty Prediction [0.0]
顔の美を予測するための新しいハイブリッドフレームワークである textbfFairViT-GAN を提案する。
本研究では,FairViT-GANが予測精度を向上し,textbf0.9230のピアソン相関を実現し,RMSEをtextbf0.2650に短縮することを示す。
対象者の分類精度がほぼランダムな確率(52.1%)に低下する傾向がみられた。
論文 参考訳(メタデータ) (2025-09-28T12:55:31Z) - SynergyNet: Fusing Generative Priors and State-Space Models for Facial Beauty Prediction [0.0]
本稿では,顔の美しさを予測できる新しいデュアルストリームアーキテクチャである textbfMamba-Diffusion Network (MD-Net) を紹介する。
MD-Net は、textbf0.9235 のピアソン相関を達成し、ハイブリッドアーキテクチャの有意義な可能性を実証する、新しい最先端技術を設定している。
論文 参考訳(メタデータ) (2025-09-21T17:36:42Z) - Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction [0.0]
本稿では,CNNの機能抽出能力と変換器のリレーショナルモデリング能力とを相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を紹介する。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
論文 参考訳(メタデータ) (2025-09-05T13:16:55Z) - Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction [0.0]
新規かつ効率的なハイブリッドアーキテクチャであるMamba-CNNを提案する。
Mamba-CNNは軽量で、Mambaにインスパイアされたステートスペースモデル(SSM)のゲーティング機構を階層的な畳み込みバックボーンに統合する。
本研究は,CNNと選択的SSMを組み合わせることの相乗的可能性を検証するとともに,ニュアンスドビジュアル理解タスクのための強力なアーキテクチャパラダイムを提案する。
論文 参考訳(メタデータ) (2025-09-01T12:42:04Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。