論文の概要: Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction
- arxiv url: http://arxiv.org/abs/2509.01431v1
- Date: Mon, 01 Sep 2025 12:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.692583
- Title: Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction
- Title(参考訳): Mamba-CNN: 顔の美しさを効果的かつ正確に予測するためのハイブリッドアーキテクチャ
- Authors: Djamel Eddine Boukhari,
- Abstract要約: 新規かつ効率的なハイブリッドアーキテクチャであるMamba-CNNを提案する。
Mamba-CNNは軽量で、Mambaにインスパイアされたステートスペースモデル(SSM)のゲーティング機構を階層的な畳み込みバックボーンに統合する。
本研究は,CNNと選択的SSMを組み合わせることの相乗的可能性を検証するとともに,ニュアンスドビジュアル理解タスクのための強力なアーキテクチャパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational assessment of facial attractiveness, a challenging subjective regression task, is dominated by architectures with a critical trade-off: Convolutional Neural Networks (CNNs) offer efficiency but have limited receptive fields, while Vision Transformers (ViTs) model global context at a quadratic computational cost. To address this, we propose Mamba-CNN, a novel and efficient hybrid architecture. Mamba-CNN integrates a lightweight, Mamba-inspired State Space Model (SSM) gating mechanism into a hierarchical convolutional backbone. This core innovation allows the network to dynamically modulate feature maps and selectively emphasize salient facial features and their long-range spatial relationships, mirroring human holistic perception while maintaining computational efficiency. We conducted extensive experiments on the widely-used SCUT-FBP5500 benchmark, where our model sets a new state-of-the-art. Mamba-CNN achieves a Pearson Correlation (PC) of 0.9187, a Mean Absolute Error (MAE) of 0.2022, and a Root Mean Square Error (RMSE) of 0.2610. Our findings validate the synergistic potential of combining CNNs with selective SSMs and present a powerful new architectural paradigm for nuanced visual understanding tasks.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は効率性はあるが受容場は限られており、視覚変換器(ViT)は2次計算コストでグローバルコンテキストをモデル化する。
そこで我々は,新しい,効率的なハイブリッドアーキテクチャであるMamba-CNNを提案する。
Mamba-CNNは軽量で、Mambaにインスパイアされたステートスペースモデル(SSM)のゲーティング機構を階層的な畳み込みバックボーンに統合する。
この中心的な革新により、ネットワークは特徴マップを動的に変調し、人間の全体的知覚を反映しつつ、計算効率を保ちながら、正常な顔の特徴とその長距離空間的関係を選択的に強調することができる。
我々は広く使われているSCUT-FBP5500ベンチマークで広範な実験を行い、そこで新しい最先端のモデルを構築した。
Mamba-CNNはピアソン相関(PC)は0.9187、平均絶対誤差(MAE)は0.2022、ルート平均角誤差(RMSE)は0.2610である。
本研究は,CNNと選択的SSMを組み合わせることの相乗的可能性を検証するとともに,ニュアンスドビジュアル理解タスクのための強力なアーキテクチャパラダイムを提案する。
関連論文リスト
- ALWNN Empowered Automatic Modulation Classification: Conquering Complexity and Scarce Sample Conditions [24.59462798452397]
本稿では、適応軽量ウェーブレットニューラルネットワーク(ALWNN)とマルチショットフレームワーク(MALWNN)に基づく自動変調分類モデルを提案する。
ALWNNモデルは適応ウェーブレットニューラルネットワークと深度分離可能な畳み込みを統合することで、モデルパラメータの数と計算複雑性を低減する。
MALWNNの実験では、他のアルゴリズムと比較して、数ショットの学習シナリオでは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-24T06:14:33Z) - Scalable Mechanistic Neural Networks for Differential Equations and Machine Learning [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。
計算時間と空間複雑度はそれぞれ、列長に関して立方体と二次体から線形へと減少する。
大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文 参考訳(メタデータ) (2024-10-08T14:27:28Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting [11.058879849373572]
時間的予測のためのRNNを持つVTやCNNは、時間的・空間的ダイナミクスを予測するのに相容れない結果をもたらす。
最近のMambaベースのアーキテクチャは、非常に長いシーケンスモデリング能力に熱中している。
本稿では,ビジョンマンバブロックの強度をLSTMと統合した再帰ユニットであるVMRNNセルを提案する。
論文 参考訳(メタデータ) (2024-03-25T08:26:42Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。