論文の概要: Versatile Multi-Modal Pre-Training for Human-Centric Perception
- arxiv url: http://arxiv.org/abs/2203.13815v1
- Date: Fri, 25 Mar 2022 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:56:31.120704
- Title: Versatile Multi-Modal Pre-Training for Human-Centric Perception
- Title(参考訳): 人間中心知覚のためのマルチモーダル・プレトレーニング
- Authors: Fangzhou Hong, Liang Pan, Zhongang Cai, Ziwei Liu
- Abstract要約: 本稿では,効果的な表現学習のための人間中心型マルチモーダルコントラスト学習フレームワークHCMoCoを提案する。
モーダル不変潜在空間を階層的に学習することで、サンプル内コントラスト学習とスパース構造対応コントラスト学習を目標とする。
異なるモードの下流4つのタスクの実験によりHCMoCoの有効性が示された。
- 参考スコア(独自算出の注目度): 32.62404509079062
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-centric perception plays a vital role in vision and graphics. But their
data annotations are prohibitively expensive. Therefore, it is desirable to
have a versatile pre-train model that serves as a foundation for data-efficient
downstream tasks transfer. To this end, we propose the Human-Centric
Multi-Modal Contrastive Learning framework HCMoCo that leverages the
multi-modal nature of human data (e.g. RGB, depth, 2D keypoints) for effective
representation learning. The objective comes with two main challenges: dense
pre-train for multi-modality data, efficient usage of sparse human priors. To
tackle the challenges, we design the novel Dense Intra-sample Contrastive
Learning and Sparse Structure-aware Contrastive Learning targets by
hierarchically learning a modal-invariant latent space featured with continuous
and ordinal feature distribution and structure-aware semantic consistency.
HCMoCo provides pre-train for different modalities by combining heterogeneous
datasets, which allows efficient usage of existing task-specific human data.
Extensive experiments on four downstream tasks of different modalities
demonstrate the effectiveness of HCMoCo, especially under data-efficient
settings (7.16% and 12% improvement on DensePose Estimation and Human Parsing).
Moreover, we demonstrate the versatility of HCMoCo by exploring cross-modality
supervision and missing-modality inference, validating its strong ability in
cross-modal association and reasoning.
- Abstract(参考訳): 人間中心の知覚は視覚とグラフィックにおいて重要な役割を果たす。
しかし、データアノテーションは違法に高価だ。
したがって、データ効率の低いダウンストリームタスク転送の基盤となる多目的プレトレインモデルを持つことが望ましい。
この目的のために,人間のデータ(例えば,RGB,深さ,2Dキーポイント)のマルチモーダルな性質を有効表現学習に活用するHuman-Centric Multi-Modal Contrastive Learning framework HCMoCoを提案する。
目的は2つの主要な課題である、マルチモダリティデータに対する高密度プレトレイン、スパースな人間の事前使用である。
この課題に対処するために、連続的および順序的特徴分布と構造的意味一貫性を特徴とする様相不変の潜在空間を階層的に学習することにより、Dense In-sample Contrastive Learning and Sparse Structure-aware Contrastive Learningターゲットを設計する。
HCMoCoは異種データセットを組み合わせることで、さまざまなモダリティのための事前トレーニングを提供する。
異なるモードの4つの下流タスクに関する大規模な実験は、特にデータ効率のよい設定でHCMoCoの有効性を示す(DensePose EstimationとHuman Parsingの改善は7.16%と12%)。
さらに,クロスモダリティの監督と欠如モダリティ推論を探求し,クロスモダリティ関連と推論の強い能力を検証することで,hcmocoの汎用性を示す。
関連論文リスト
- IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-01T22:37:33Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Modality-specific Distillation [30.190082262375395]
マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。
私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。
各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
論文 参考訳(メタデータ) (2021-01-06T05:45:07Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。