論文の概要: Transformer-Metric Loss for CNN-Based Face Recognition
- arxiv url: http://arxiv.org/abs/2412.02198v1
- Date: Tue, 03 Dec 2024 06:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:35.879812
- Title: Transformer-Metric Loss for CNN-Based Face Recognition
- Title(参考訳): CNNに基づく顔認識のためのトランスフォーマー・メトリ・ロス
- Authors: Pritesh Prakash, Ashish Jacob Sam,
- Abstract要約: 本稿では,顔認識領域の付加的損失としてトランスフォーマーネットワークを用いた損失評価手法を提案する。
変換器の損失(transformer-metric loss)は、変換器の損失(transformer-loss)と計量の損失(trime-loss)の両方を統合したアプローチである。
本研究は、機械ビジョン領域におけるトランスフォーマーの役割を拡張し、ロス関数としてトランスフォーマーを探索する新たな可能性を開く。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In deep learning, the loss function plays a crucial role in optimizing the network. Many recent innovations in loss techniques have been made, and various margin-based angular loss functions (metric loss) have been designed particularly for face recognition. The concept of transformers is already well-researched and applied in many facets of machine vision. This paper presents a technique for loss evaluation that uses a transformer network as an additive loss in the face recognition domain. The standard metric loss function typically takes the final embedding of the main CNN backbone as its input. Here, we employ a transformer-metric loss, a combined approach that integrates both transformer-loss and metric-loss. This research intends to analyze the transformer behavior on the convolution output when the CNN outcome is arranged in a sequential vector. The transformer encoder takes input from the contextual vectors obtained from the final convolution layer of the network. With this technique, we use transformer loss with various base metric-loss functions to evaluate the effect of the combined loss functions. We observe that such a configuration allows the network to achieve SoTA results on various validation datasets with some limitations. This research expands the role of transformers in the machine vision domain and opens new possibilities for exploring transformers as a loss function.
- Abstract(参考訳): ディープラーニングでは、損失関数はネットワークの最適化において重要な役割を果たす。
近年の損失技術における多くの革新が作られており、特に顔認識のために様々なマージンベースの角損失関数(メートル法損失)が設計されている。
トランスの概念はすでによく研究されており、マシンビジョンの多くの面に適用されている。
本稿では,顔認識領域の付加的損失としてトランスフォーマーネットワークを用いた損失評価手法を提案する。
標準的なメートル法損失関数は、通常、メインのCNNバックボーンをその入力として埋め込む。
ここでは、変圧器の損失、つまり、変圧器の損失と計量の損失を組み合わせたアプローチを用いる。
本研究は,CNN結果が逐次ベクトルに配列された場合の畳み込み出力の変圧器挙動を解析することを目的とする。
トランスエンコーダは、ネットワークの最終畳み込み層から得られたコンテキストベクトルから入力を受ける。
本手法では, 種々の基本距離損失関数を用いた変圧器損失を用いて, 複合損失関数の効果を評価する。
このような構成により、ネットワークは様々な検証データセット上で、いくつかの制限を伴ってSoTA結果を達成できる。
本研究は、機械ビジョン領域におけるトランスフォーマーの役割を拡張し、ロス関数としてトランスフォーマーを探索する新たな可能性を開く。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。