論文の概要: Unimodal Face Classification with Multimodal Training
- arxiv url: http://arxiv.org/abs/2112.04182v1
- Date: Wed, 8 Dec 2021 09:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:39:45.224703
- Title: Unimodal Face Classification with Multimodal Training
- Title(参考訳): マルチモーダルトレーニングによる一様顔分類
- Authors: Wenbin Teng and Chongyang Bai
- Abstract要約: 顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。
本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face recognition is a crucial task in various multimedia applications such as
security check, credential access and motion sensing games. However, the task
is challenging when an input face is noisy (e.g. poor-condition RGB image) or
lacks certain information (e.g. 3D face without color). In this work, we
propose a Multimodal Training Unimodal Test (MTUT) framework for robust face
classification, which exploits the cross-modality relationship during training
and applies it as a complementary of the imperfect single modality input during
testing. Technically, during training, the framework (1) builds both
intra-modality and cross-modality autoencoders with the aid of facial
attributes to learn latent embeddings as multimodal descriptors, (2) proposes a
novel multimodal embedding divergence loss to align the heterogeneous features
from different modalities, which also adaptively avoids the useless modality
(if any) from confusing the model. This way, the learned autoencoders can
generate robust embeddings in single-modality face classification on test
stage. We evaluate our framework in two face classification datasets and two
kinds of testing input: (1) poor-condition image and (2) point cloud or 3D face
mesh, when both 2D and 3D modalities are available for training. We
experimentally show that our MTUT framework consistently outperforms ten
baselines on 2D and 3D settings of both datasets.
- Abstract(参考訳): 顔認識は、セキュリティチェック、クレデンシャルアクセス、モーションセンシングゲームなど、様々なマルチメディアアプリケーションにおいて重要なタスクである。
しかし、入力面がノイズ(例えば、条件の悪いRGB画像)であるか、特定の情報(例えば、色のない3D顔)が欠けている場合、タスクは困難である。
本研究では,学習中の相互モダリティ関係を活用し,テスト中の不完全な単一モダリティ入力の補完として適用する,ロバストな顔分類のためのマルチモーダルトレーニングユニモダリティテスト(mtut)フレームワークを提案する。
技術面では,(1)モダリティ内およびモダリティ間オートエンコーダの両方を顔属性の助けを借りて構築し,マルチモーダル記述子として潜伏埋め込みを学習し,(2)異なるモダリティから不均一な特徴を整合させる新しい多モーダル埋め込み分散損失を提案する。
これにより、学習したオートエンコーダは、テストステージ上の単一モードの顔分類に堅牢な埋め込みを生成することができる。
2dと3dのモダリティがトレーニングに利用できる場合,(1)不良条件画像と(2)ポイントクラウド,または3d顔メッシュの2つの顔分類データセットと2種類のテスト入力でフレームワークを評価した。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
関連論文リスト
- Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning [113.59943108230242]
視覚言語による事前学習と指導訓練は、2次元視覚推論タスクにおいて汎用的な機能を示した。
凍結した大言語モデル(LLM)上に構築された、シンプルで効果的で効果的なクロスモダリティフレームワークを紹介します。
オーディオ用24KQAサンプルと3D用250KQAサンプルからなる,高品質な命令チューニングデータを自動,スケーラブルに収集する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for
2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。
我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。
実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-09-26T23:52:09Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。