論文の概要: SynergyNet: Fusing Generative Priors and State-Space Models for Facial Beauty Prediction
- arxiv url: http://arxiv.org/abs/2509.17172v1
- Date: Sun, 21 Sep 2025 17:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.146231
- Title: SynergyNet: Fusing Generative Priors and State-Space Models for Facial Beauty Prediction
- Title(参考訳): SynergyNet: 顔の美容予測のための生成優先と状態空間モデル
- Authors: Djamel Eddine Boukhari,
- Abstract要約: 本稿では,顔の美しさを予測できる新しいデュアルストリームアーキテクチャである textbfMamba-Diffusion Network (MD-Net) を紹介する。
MD-Net は、textbf0.9235 のピアソン相関を達成し、ハイブリッドアーキテクチャの有意義な可能性を実証する、新しい最先端技術を設定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated prediction of facial beauty is a benchmark task in affective computing that requires a sophisticated understanding of both local aesthetic details (e.g., skin texture) and global facial harmony (e.g., symmetry, proportions). Existing models, based on either Convolutional Neural Networks (CNNs) or Vision Transformers (ViTs), exhibit inherent architectural biases that limit their performance; CNNs excel at local feature extraction but struggle with long-range dependencies, while ViTs model global relationships at a significant computational cost. This paper introduces the \textbf{Mamba-Diffusion Network (MD-Net)}, a novel dual-stream architecture that resolves this trade-off by delegating specialized roles to state-of-the-art models. The first stream leverages a frozen U-Net encoder from a pre-trained latent diffusion model, providing a powerful generative prior for fine-grained aesthetic qualities. The second stream employs a Vision Mamba (Vim), a modern state-space model, to efficiently capture global facial structure with linear-time complexity. By synergistically integrating these complementary representations through a cross-attention mechanism, MD-Net creates a holistic and nuanced feature space for prediction. Evaluated on the SCUT-FBP5500 benchmark, MD-Net sets a new state-of-the-art, achieving a Pearson Correlation of \textbf{0.9235} and demonstrating the significant potential of hybrid architectures that fuse generative and sequential modeling paradigms for complex visual assessment tasks.
- Abstract(参考訳): 顔の美しさの自動予測は、局所的な美的詳細(例えば、肌のテクスチャ)とグローバルな顔の調和(例えば、対称性、比率)の洗練された理解を必要とする感情コンピューティングのベンチマークタスクである。
既存のモデルでは、畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマー(ViT)をベースとして、パフォーマンスを制限する固有のアーキテクチャバイアスを示しており、CNNは局所的な特徴抽出に優れ、長距離依存に苦しむ一方で、ViTは計算コストの大きなグローバルな関係をモデル化している。
本稿では、このトレードオフを解決するために、専門的な役割を最先端モデルに委譲することで、新しいデュアルストリームアーキテクチャである「textbf{Mamba-Diffusion Network (MD-Net)」を紹介する。
第1ストリームは、トレーニング済みの潜伏拡散モデルから凍結したU-Netエンコーダを活用し、きめ細かい審美性のために強力な生成前を提供する。
第2ストリームでは、現在の状態空間モデルであるVision Mamba(Vim)を使用して、線形時間複雑性でグローバルな顔構造を効率的にキャプチャする。
MD-Netは、これらの相補的表現をクロスアテンション機構を通じて相乗的に統合することにより、予測のための総体的でニュアンスな特徴空間を生成する。
SCUT-FBP5500ベンチマークで評価され、MD-Netは新たな最先端を定め、Pearson correlation of \textbf{0.9235}を達成し、複雑な視覚的アセスメントタスクのために生成的およびシーケンシャルなモデリングパラダイムを融合するハイブリッドアーキテクチャの有意義な可能性を実証した。
関連論文リスト
- Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction [0.0]
本稿では,CNNの機能抽出能力と変換器のリレーショナルモデリング能力とを相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を紹介する。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
論文 参考訳(メタデータ) (2025-09-05T13:16:55Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction [0.0]
新規かつ効率的なハイブリッドアーキテクチャであるMamba-CNNを提案する。
Mamba-CNNは軽量で、Mambaにインスパイアされたステートスペースモデル(SSM)のゲーティング機構を階層的な畳み込みバックボーンに統合する。
本研究は,CNNと選択的SSMを組み合わせることの相乗的可能性を検証するとともに,ニュアンスドビジュアル理解タスクのための強力なアーキテクチャパラダイムを提案する。
論文 参考訳(メタデータ) (2025-09-01T12:42:04Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Deep Tensor Network [9.910562011343009]
我々は、テンソル代数の表現力とニューラルネットワーク設計を統一することで、注意を再構築する新しいアーキテクチャフレームワークであるDeep Networkを紹介する。
我々のアプローチは、従来のドット積の注意とその後の線形時間近似を超越して、高次統計依存を捉える。
論文 参考訳(メタデータ) (2023-11-18T14:41:33Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。