論文の概要: Unimodal Face Classification with Multimodal Training
- arxiv url: http://arxiv.org/abs/2112.04182v1
- Date: Wed, 8 Dec 2021 09:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:39:45.224703
- Title: Unimodal Face Classification with Multimodal Training
- Title(参考訳): マルチモーダルトレーニングによる一様顔分類
- Authors: Wenbin Teng and Chongyang Bai
- Abstract要約: 顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。
本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face recognition is a crucial task in various multimedia applications such as
security check, credential access and motion sensing games. However, the task
is challenging when an input face is noisy (e.g. poor-condition RGB image) or
lacks certain information (e.g. 3D face without color). In this work, we
propose a Multimodal Training Unimodal Test (MTUT) framework for robust face
classification, which exploits the cross-modality relationship during training
and applies it as a complementary of the imperfect single modality input during
testing. Technically, during training, the framework (1) builds both
intra-modality and cross-modality autoencoders with the aid of facial
attributes to learn latent embeddings as multimodal descriptors, (2) proposes a
novel multimodal embedding divergence loss to align the heterogeneous features
from different modalities, which also adaptively avoids the useless modality
(if any) from confusing the model. This way, the learned autoencoders can
generate robust embeddings in single-modality face classification on test
stage. We evaluate our framework in two face classification datasets and two
kinds of testing input: (1) poor-condition image and (2) point cloud or 3D face
mesh, when both 2D and 3D modalities are available for training. We
experimentally show that our MTUT framework consistently outperforms ten
baselines on 2D and 3D settings of both datasets.
- Abstract(参考訳): 顔認識は、セキュリティチェック、クレデンシャルアクセス、モーションセンシングゲームなど、様々なマルチメディアアプリケーションにおいて重要なタスクである。
しかし、入力面がノイズ(例えば、条件の悪いRGB画像)であるか、特定の情報(例えば、色のない3D顔)が欠けている場合、タスクは困難である。
本研究では,学習中の相互モダリティ関係を活用し,テスト中の不完全な単一モダリティ入力の補完として適用する,ロバストな顔分類のためのマルチモーダルトレーニングユニモダリティテスト(mtut)フレームワークを提案する。
技術面では,(1)モダリティ内およびモダリティ間オートエンコーダの両方を顔属性の助けを借りて構築し,マルチモーダル記述子として潜伏埋め込みを学習し,(2)異なるモダリティから不均一な特徴を整合させる新しい多モーダル埋め込み分散損失を提案する。
これにより、学習したオートエンコーダは、テストステージ上の単一モードの顔分類に堅牢な埋め込みを生成することができる。
2dと3dのモダリティがトレーニングに利用できる場合,(1)不良条件画像と(2)ポイントクラウド,または3d顔メッシュの2つの顔分類データセットと2種類のテスト入力でフレームワークを評価した。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
関連論文リスト
- Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for
2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。
我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。
実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-09-26T23:52:09Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。