論文の概要: MSConv: Multiplicative and Subtractive Convolution for Face Recognition
- arxiv url: http://arxiv.org/abs/2503.06187v1
- Date: Sat, 08 Mar 2025 12:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:56.578456
- Title: MSConv: Multiplicative and Subtractive Convolution for Face Recognition
- Title(参考訳): MSConv: 顔認識のための乗法的および減算的畳み込み
- Authors: Si Zhou, Yain-Whar Si, Xiaochen Yuan, Xiaofan Li, Xiaoxiang Liu, Xinyuan Zhang, Cong Lin, Xueyuan Gong,
- Abstract要約: 我々はMSConv(Multiplicative and Subtractive Convolution)と呼ばれる効率的な畳み込みモジュールを提案する。
具体的には、顔画像から局所的およびより広い文脈情報をキャプチャするために、マルチスケールの混合畳み込みを用いる。
実験の結果,MSConvは有能な特徴と差分な特徴を統合することで,有能な特徴にのみ焦点を絞ったモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 7.230136103375249
- License:
- Abstract: In Neural Networks, there are various methods of feature fusion. Different strategies can significantly affect the effectiveness of feature representation, consequently influencing the ability of model to extract representative and discriminative features. In the field of face recognition, traditional feature fusion methods include feature concatenation and feature addition. Recently, various attention mechanism-based fusion strategies have emerged. However, we found that these methods primarily focus on the important features in the image, referred to as salient features in this paper, while neglecting another equally important set of features for image recognition tasks, which we term differential features. This may cause the model to overlook critical local differences when dealing with complex facial samples. Therefore, in this paper, we propose an efficient convolution module called MSConv (Multiplicative and Subtractive Convolution), designed to balance the learning of model about salient and differential features. Specifically, we employ multi-scale mixed convolution to capture both local and broader contextual information from face images, and then utilize Multiplication Operation (MO) and Subtraction Operation (SO) to extract salient and differential features, respectively. Experimental results demonstrate that by integrating both salient and differential features, MSConv outperforms models that only focus on salient features.
- Abstract(参考訳): ニューラルネットワークには様々な特徴融合法がある。
異なる戦略は特徴表現の有効性に大きな影響を与え、結果としてモデルが代表的特徴と識別的特徴を抽出する能力に影響を与える。
顔認識の分野では、伝統的な特徴融合法は特徴連結と特徴付加を含む。
近年,様々な注意機構に基づく核融合戦略が出現している。
しかし,これらの手法は画像における重要な特徴に主に焦点をあてており,画像認識タスクの他の重要な特徴を無視する一方で,差分特徴(differential features)と呼ぶ。
これにより、複雑な顔のサンプルを扱う際に、モデルが重要な局所的な違いを見落としてしまう可能性がある。
そこで本稿では,MSConv (Multiplicative and Subtractive Convolution) と呼ばれる効率的な畳み込みモジュールを提案する。
具体的には、顔画像から局所的・より広い文脈情報をキャプチャするために多スケールの混成畳み込みを用い、次に乗算演算(MO)と減算演算(SO)を用いてそれぞれ有意な特徴と差分な特徴を抽出する。
実験の結果,MSConvは有能な特徴と差分な特徴を統合することで,有能な特徴にのみ焦点を絞ったモデルよりも優れていた。
関連論文リスト
- Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - Feature Decomposition and Reconstruction Learning for Effective Facial
Expression Recognition [80.17419621762866]
本稿では,表情認識のための特徴分解再構成学習(FDRL)手法を提案する。
FDRLは、FDN(Feature Decomposition Network)とFRN(Feature Restruction Network)の2つの重要なネットワークで構成されている。
論文 参考訳(メタデータ) (2021-04-12T02:22:45Z) - HAMIL: Hierarchical Aggregation-Based Multi-Instance Learning for
Microscopy Image Classification [4.566276053984716]
マルチインスタンス学習はコンピュータビジョンタスク、特にバイオメディカル画像処理において一般的である。
本研究では,マルチインスタンス学習のための階層型アグリゲーションネットワークhamilを提案する。
階層的なアグリゲーションプロトコルは、定義された順序で機能融合を可能にし、単純な畳み込みアグリゲーションユニットは効率的で柔軟なアーキテクチャをもたらす。
論文 参考訳(メタデータ) (2021-03-17T16:34:08Z) - Image super-resolution reconstruction based on attention mechanism and
feature fusion [3.42658286826597]
注意機構とマルチスケール特徴融合に基づくネットワーク構造を提案する。
実験により,提案手法は,他の代表的超解像再構成アルゴリズムよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-04-08T11:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。