論文の概要: Virtual Multi-Modality Self-Supervised Foreground Matting for
Human-Object Interaction
- arxiv url: http://arxiv.org/abs/2110.03278v1
- Date: Thu, 7 Oct 2021 09:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:09:38.184058
- Title: Virtual Multi-Modality Self-Supervised Foreground Matting for
Human-Object Interaction
- Title(参考訳): 人間-物体相互作用のための仮想多モード自己監督前景マッチング
- Authors: Bo Xu, Han Huang, Cheng Lu, Ziwen Li and Yandong Guo
- Abstract要約: 本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)手法を提案する。
VMFMメソッドはトリマップや既知のバックグラウンドなどの追加入力を必要としない。
我々は,前景マッティングを自己監督型マルチモーダリティ問題として再構成する。
- 参考スコア(独自算出の注目度): 18.14237514372724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing human matting algorithms tried to separate pure human-only
foreground from the background. In this paper, we propose a Virtual
Multi-modality Foreground Matting (VMFM) method to learn human-object
interactive foreground (human and objects interacted with him or her) from a
raw RGB image. The VMFM method requires no additional inputs, e.g. trimap or
known background. We reformulate foreground matting as a self-supervised
multi-modality problem: factor each input image into estimated depth map,
segmentation mask, and interaction heatmap using three auto-encoders. In order
to fully utilize the characteristics of each modality, we first train a dual
encoder-to-decoder network to estimate the same alpha matte. Then we introduce
a self-supervised method: Complementary Learning(CL) to predict deviation
probability map and exchange reliable gradients across modalities without
label. We conducted extensive experiments to analyze the effectiveness of each
modality and the significance of different components in complementary
learning. We demonstrate that our model outperforms the state-of-the-art
methods.
- Abstract(参考訳): 既存の人間のマッチングアルゴリズムのほとんどは、純粋な人間だけの前景を背景から切り離そうとした。
本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)法を提案し,生のRGB画像から人間とオブジェクトの対話的なフォアグラウンド(人間とオブジェクトの対話)を学習する。
VMFM法はトリマップや既知のバックグラウンドなど追加の入力を必要としない。
3つの自動エンコーダを用いて各入力画像を推定深度マップ、セグメンテーションマスク、相互作用熱マップに分解する。
各モードの特性をフル活用するために、まず2つのエンコーダ-デコーダネットワークをトレーニングし、同じアルファマットを推定する。
次に, 偏差確率マップを予測し, ラベル無しで信頼性の高い勾配を交換する, 自己教師あり学習(cl)を提案する。
補足学習における各モダリティの有効性と異なる成分の意義を分析するために,広範囲にわたる実験を行った。
我々のモデルは最先端の手法よりも優れていることを示す。
関連論文リスト
- End-to-end Semantic-centric Video-based Multimodal Affective Computing [27.13963885724786]
本稿では,セマンティックMAC(SemanticMAC)という新しいエンドツーエンドフレームワークを提案する。
我々は、マルチモーダルデータ前処理とAffective Perceiverモジュールの設計において、事前学習したTransformerモデルを用いて、非モーダル感情情報をキャプチャする。
セマンティックMACは意味中心ラベルのガイダンスにおいて、特定の意味表現と共有意味表現を効果的に学習する。
論文 参考訳(メタデータ) (2024-08-14T17:50:27Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Motor Imagery Decoding Using Ensemble Curriculum Learning and
Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。
これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。
複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。
我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文 参考訳(メタデータ) (2022-11-21T13:45:44Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。