Fugu-MT 論文翻訳(概要): Unimodal Face Classification with Multimodal Training

論文の概要: Unimodal Face Classification with Multimodal Training

arxiv url: http://arxiv.org/abs/2112.04182v1
Date: Wed, 8 Dec 2021 09:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 14:39:45.224703
Title: Unimodal Face Classification with Multimodal Training
Title（参考訳）: マルチモーダルトレーニングによる一様顔分類
Authors: Wenbin Teng and Chongyang Bai
Abstract要約: 顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。 MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 1.9580473532948401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Face recognition is a crucial task in various multimedia applications such as security check, credential access and motion sensing games. However, the task is challenging when an input face is noisy (e.g. poor-condition RGB image) or lacks certain information (e.g. 3D face without color). In this work, we propose a Multimodal Training Unimodal Test (MTUT) framework for robust face classification, which exploits the cross-modality relationship during training and applies it as a complementary of the imperfect single modality input during testing. Technically, during training, the framework (1) builds both intra-modality and cross-modality autoencoders with the aid of facial attributes to learn latent embeddings as multimodal descriptors, (2) proposes a novel multimodal embedding divergence loss to align the heterogeneous features from different modalities, which also adaptively avoids the useless modality (if any) from confusing the model. This way, the learned autoencoders can generate robust embeddings in single-modality face classification on test stage. We evaluate our framework in two face classification datasets and two kinds of testing input: (1) poor-condition image and (2) point cloud or 3D face mesh, when both 2D and 3D modalities are available for training. We experimentally show that our MTUT framework consistently outperforms ten baselines on 2D and 3D settings of both datasets.
Abstract（参考訳）: 顔認識は、セキュリティチェック、クレデンシャルアクセス、モーションセンシングゲームなど、様々なマルチメディアアプリケーションにおいて重要なタスクである。しかし、入力面がノイズ(例えば、条件の悪いRGB画像)であるか、特定の情報(例えば、色のない3D顔)が欠けている場合、タスクは困難である。本研究では,学習中の相互モダリティ関係を活用し,テスト中の不完全な単一モダリティ入力の補完として適用する,ロバストな顔分類のためのマルチモーダルトレーニングユニモダリティテスト(mtut)フレームワークを提案する。技術面では,(1)モダリティ内およびモダリティ間オートエンコーダの両方を顔属性の助けを借りて構築し,マルチモーダル記述子として潜伏埋め込みを学習し,(2)異なるモダリティから不均一な特徴を整合させる新しい多モーダル埋め込み分散損失を提案する。これにより、学習したオートエンコーダは、テストステージ上の単一モードの顔分類に堅牢な埋め込みを生成することができる。 2dと3dのモダリティがトレーニングに利用できる場合,(1)不良条件画像と(2)ポイントクラウド,または3d顔メッシュの2つの顔分類データセットと2種類のテスト入力でフレームワークを評価した。 MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。 Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。 Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文参考訳（メタデータ） (2025-05-23T09:31:02Z)
CMIP-CIL: A Cross-Modal Benchmark for Image-Point Class Incremental Learning [10.936166435599572]
画像ポイントクラスインクリメンタル学習は、3Dポイントビジョンロボットが2D画像からカテゴリ知識を継続的に学習するのに役立つ。本研究はまず,CMIP-CILベンチマークの提案と,このクロスモーダルな破滅的な忘れ問題を軽減することを目的として,このクロスモーダルなタスクについて検討する。マスクされた点雲とコントラスト学習フレームワーク内の多視点画像を事前学習し、画像-点対応の一般化による視覚モデルを強化する。
論文参考訳（メタデータ） (2025-04-11T10:28:29Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T08:46:29Z)
Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文参考訳（メタデータ） (2023-12-08T08:18:12Z)
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文参考訳（メタデータ） (2023-11-30T18:43:51Z)
DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文参考訳（メタデータ） (2023-11-08T15:39:56Z)
M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-09-26T23:52:09Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文参考訳（メタデータ） (2023-03-14T17:58:03Z)
Recurrent Multi-view Alignment Network for Unsupervised Surface Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文参考訳（メタデータ） (2020-11-24T14:22:42Z)
Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文参考訳（メタデータ） (2020-08-04T07:54:25Z)
Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文参考訳（メタデータ） (2020-07-19T07:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。