Fugu-MT 論文翻訳(概要): Versatile Multi-Modal Pre-Training for Human-Centric Perception

論文の概要: Versatile Multi-Modal Pre-Training for Human-Centric Perception

arxiv url: http://arxiv.org/abs/2203.13815v1
Date: Fri, 25 Mar 2022 17:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 13:56:31.120704
Title: Versatile Multi-Modal Pre-Training for Human-Centric Perception
Title（参考訳）: 人間中心知覚のためのマルチモーダル・プレトレーニング
Authors: Fangzhou Hong, Liang Pan, Zhongang Cai, Ziwei Liu
Abstract要約: 本稿では,効果的な表現学習のための人間中心型マルチモーダルコントラスト学習フレームワークHCMoCoを提案する。モーダル不変潜在空間を階層的に学習することで、サンプル内コントラスト学習とスパース構造対応コントラスト学習を目標とする。異なるモードの下流4つのタスクの実験によりHCMoCoの有効性が示された。
参考スコア（独自算出の注目度）: 32.62404509079062
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human-centric perception plays a vital role in vision and graphics. But their data annotations are prohibitively expensive. Therefore, it is desirable to have a versatile pre-train model that serves as a foundation for data-efficient downstream tasks transfer. To this end, we propose the Human-Centric Multi-Modal Contrastive Learning framework HCMoCo that leverages the multi-modal nature of human data (e.g. RGB, depth, 2D keypoints) for effective representation learning. The objective comes with two main challenges: dense pre-train for multi-modality data, efficient usage of sparse human priors. To tackle the challenges, we design the novel Dense Intra-sample Contrastive Learning and Sparse Structure-aware Contrastive Learning targets by hierarchically learning a modal-invariant latent space featured with continuous and ordinal feature distribution and structure-aware semantic consistency. HCMoCo provides pre-train for different modalities by combining heterogeneous datasets, which allows efficient usage of existing task-specific human data. Extensive experiments on four downstream tasks of different modalities demonstrate the effectiveness of HCMoCo, especially under data-efficient settings (7.16% and 12% improvement on DensePose Estimation and Human Parsing). Moreover, we demonstrate the versatility of HCMoCo by exploring cross-modality supervision and missing-modality inference, validating its strong ability in cross-modal association and reasoning.
Abstract（参考訳）: 人間中心の知覚は視覚とグラフィックにおいて重要な役割を果たす。しかし、データアノテーションは違法に高価だ。したがって、データ効率の低いダウンストリームタスク転送の基盤となる多目的プレトレインモデルを持つことが望ましい。この目的のために,人間のデータ(例えば,RGB,深さ,2Dキーポイント)のマルチモーダルな性質を有効表現学習に活用するHuman-Centric Multi-Modal Contrastive Learning framework HCMoCoを提案する。目的は2つの主要な課題である、マルチモダリティデータに対する高密度プレトレイン、スパースな人間の事前使用である。この課題に対処するために、連続的および順序的特徴分布と構造的意味一貫性を特徴とする様相不変の潜在空間を階層的に学習することにより、Dense In-sample Contrastive Learning and Sparse Structure-aware Contrastive Learningターゲットを設計する。 HCMoCoは異種データセットを組み合わせることで、さまざまなモダリティのための事前トレーニングを提供する。異なるモードの4つの下流タスクに関する大規模な実験は、特にデータ効率のよい設定でHCMoCoの有効性を示す(DensePose EstimationとHuman Parsingの改善は7.16%と12%)。さらに,クロスモダリティの監督と欠如モダリティ推論を探求し,クロスモダリティ関連と推論の強い能力を検証することで,hcmocoの汎用性を示す。

関連論文リスト

Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文参考訳（メタデータ） (2025-07-08T17:52:44Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
Transferable Unsupervised Outlier Detection Framework for Human Semantic Trajectories [9.816270572121724]
本稿では,TOD4Traj(Transferable Outlier Detection for Human Semantic Trajectories)フレームワークを提案する。 ToD4Trajはまず、多様なデータ特徴表現を整合させるモダリティ機能統一モジュールを導入した。コントラスト学習モジュールは、時間的および集団間の定期的な移動パターンを特定するために、さらにプロポーズされる。
論文参考訳（メタデータ） (2024-09-28T22:31:00Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文参考訳（メタデータ） (2023-05-05T19:26:06Z)
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-19T12:15:31Z)
Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-20T10:39:16Z)
Modality-specific Distillation [30.190082262375395]
マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
論文参考訳（メタデータ） (2021-01-06T05:45:07Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。