論文の概要: VM-BeautyNet: A Synergistic Ensemble of Vision Transformer and Mamba for Facial Beauty Prediction
- arxiv url: http://arxiv.org/abs/2510.16220v1
- Date: Fri, 17 Oct 2025 21:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.904465
- Title: VM-BeautyNet: A Synergistic Ensemble of Vision Transformer and Mamba for Facial Beauty Prediction
- Title(参考訳): VM-BeautyNet: 顔の美容予測のための視覚変換器とマンバの相乗的アンサンブル
- Authors: Djamel Eddine Boukhari,
- Abstract要約: 本稿では,視覚変換器とマンバベースビジョンモデルの相補的強みを融合した,新しい異種アンサンブルアーキテクチャであるtextbfVM-BeautyNetを提案する。
提案したVM-BeautyNetは,textbfPearson correlation (PC)が0.9212, textbfMean Absolute Error (MAE)が0.2085, textbfRoot Mean Square Error (RMSE)が0.2698で,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Beauty Prediction (FBP) is a complex and challenging computer vision task, aiming to model the subjective and intricate nature of human aesthetic perception. While deep learning models, particularly Convolutional Neural Networks (CNNs), have made significant strides, they often struggle to capture the global, holistic facial features that are critical to human judgment. Vision Transformers (ViT) address this by effectively modeling long-range spatial relationships, but their quadratic complexity can be a bottleneck. This paper introduces a novel, heterogeneous ensemble architecture, \textbf{VM-BeautyNet}, that synergistically fuses the complementary strengths of a Vision Transformer and a Mamba-based Vision model, a recent advancement in State-Space Models (SSMs). The ViT backbone excels at capturing global facial structure and symmetry, while the Mamba backbone efficiently models long-range dependencies with linear complexity, focusing on sequential features and textures. We evaluate our approach on the benchmark SCUT-FBP5500 dataset. Our proposed VM-BeautyNet achieves state-of-the-art performance, with a \textbf{Pearson Correlation (PC) of 0.9212}, a \textbf{Mean Absolute Error (MAE) of 0.2085}, and a \textbf{Root Mean Square Error (RMSE) of 0.2698}. Furthermore, through Grad-CAM visualizations, we provide interpretability analysis that confirms the complementary feature extraction of the two backbones, offering new insights into the model's decision-making process and presenting a powerful new architectural paradigm for computational aesthetics.
- Abstract(参考訳): FBP(Facial Beauty Prediction)は、人間の美的知覚の主観的かつ複雑な性質をモデル化することを目的とした、複雑で挑戦的なコンピュータビジョンタスクである。
ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は大きな進歩を遂げているが、人間の判断に不可欠なグローバルで全体論的顔の特徴を捉えるのに苦労することが多い。
視覚変換器(ViT)は、長距離空間関係を効果的にモデル化することでこの問題に対処するが、その2次複雑性はボトルネックとなる可能性がある。
本稿では,視覚変換器とマンバベースビジョンモデルの相補的強みを相乗的に融合させる,新しい異種アンサンブルアーキテクチャである「textbf{VM-BeautyNet}」を紹介する。
ViTのバックボーンは、グローバルな顔の構造と対称性を捉えるのに優れており、Mambaのバックボーンは、連続的な特徴とテクスチャに焦点をあてて、線形の複雑さを伴う長距離依存を効率的にモデル化している。
ベンチマークSCUT-FBP5500データセットについて検討した。
提案した VM-BeautyNet は,0.9212} の \textbf{Pearson correlation (PC) ,0.2085} の \textbf{Mean Absolute Error (MAE) ,0.2698} の \textbf{Root Mean Square Error (RMSE) を用いて,最先端の性能を実現する。
さらに、Grad-CAM視覚化を通じて、2つのバックボーンの補完的な特徴抽出を確認し、モデルの意思決定プロセスに関する新たな洞察を提供し、計算美学のための強力なアーキテクチャパラダイムを提供する。
関連論文リスト
- RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - Integrating ConvNeXt and Vision Transformers for Enhancing Facial Age Estimation [10.995974662579124]
我々は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせた新しいハイブリッドアーキテクチャを提案する。
提案したConvNeXt-ViTハイブリッドソリューションは,ベンチマーク年齢推定データセットを用いて徹底的に評価した。
以上の結果から,ConvNeXt-ViTハイブリッドは従来の手法よりも優れているだけでなく,将来的な年齢推定の基盤となることが示唆された。
論文 参考訳(メタデータ) (2025-10-31T09:36:28Z) - FairViT-GAN: A Hybrid Vision Transformer with Adversarial Debiasing for Fair and Explainable Facial Beauty Prediction [0.0]
顔の美を予測するための新しいハイブリッドフレームワークである textbfFairViT-GAN を提案する。
本研究では,FairViT-GANが予測精度を向上し,textbf0.9230のピアソン相関を実現し,RMSEをtextbf0.2650に短縮することを示す。
対象者の分類精度がほぼランダムな確率(52.1%)に低下する傾向がみられた。
論文 参考訳(メタデータ) (2025-09-28T12:55:31Z) - SynergyNet: Fusing Generative Priors and State-Space Models for Facial Beauty Prediction [0.0]
本稿では,顔の美しさを予測できる新しいデュアルストリームアーキテクチャである textbfMamba-Diffusion Network (MD-Net) を紹介する。
MD-Net は、textbf0.9235 のピアソン相関を達成し、ハイブリッドアーキテクチャの有意義な可能性を実証する、新しい最先端技術を設定している。
論文 参考訳(メタデータ) (2025-09-21T17:36:42Z) - Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction [0.0]
本稿では,CNNの機能抽出能力と変換器のリレーショナルモデリング能力とを相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を紹介する。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
論文 参考訳(メタデータ) (2025-09-05T13:16:55Z) - Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction [0.0]
新規かつ効率的なハイブリッドアーキテクチャであるMamba-CNNを提案する。
Mamba-CNNは軽量で、Mambaにインスパイアされたステートスペースモデル(SSM)のゲーティング機構を階層的な畳み込みバックボーンに統合する。
本研究は,CNNと選択的SSMを組み合わせることの相乗的可能性を検証するとともに,ニュアンスドビジュアル理解タスクのための強力なアーキテクチャパラダイムを提案する。
論文 参考訳(メタデータ) (2025-09-01T12:42:04Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。