論文の概要: DMAT: A Dynamic Mask-Aware Transformer for Human De-occlusion
- arxiv url: http://arxiv.org/abs/2402.04558v1
- Date: Wed, 7 Feb 2024 03:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:53:25.740865
- Title: DMAT: A Dynamic Mask-Aware Transformer for Human De-occlusion
- Title(参考訳): DMAT:人間の除染のための動的マスク対応変圧器
- Authors: Guoqiang Liang, Jiahao Hu, Qingyue Wang, Shizhou Zhang
- Abstract要約: 人間の非閉塞性は、隠蔽された画像から見えない人間の部分の外観を推測することを目的としている。
本稿では,人間領域からの情報を動的に拡張する動的マスク認識変換器(DMAT)を提案する。
AHPデータセットの実験は、最近の最先端手法と比較して優れた性能を示している。
- 参考スコア(独自算出の注目度): 5.901982216097867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human de-occlusion, which aims to infer the appearance of invisible human
parts from an occluded image, has great value in many human-related tasks, such
as person re-id, and intention inference. To address this task, this paper
proposes a dynamic mask-aware transformer (DMAT), which dynamically augments
information from human regions and weakens that from occlusion. First, to
enhance token representation, we design an expanded convolution head with
enlarged kernels, which captures more local valid context and mitigates the
influence of surrounding occlusion. To concentrate on the visible human parts,
we propose a novel dynamic multi-head human-mask guided attention mechanism
through integrating multiple masks, which can prevent the de-occluded regions
from assimilating to the background. Besides, a region upsampling strategy is
utilized to alleviate the impact of occlusion on interpolated images. During
model learning, an amodal loss is developed to further emphasize the recovery
effect of human regions, which also refines the model's convergence. Extensive
experiments on the AHP dataset demonstrate its superior performance compared to
recent state-of-the-art methods.
- Abstract(参考訳): 目立たない人間の部分の外観をオクルード画像から推測することを目的としたヒューマン・デクルージョンは、人物再識別や意図推論など、多くの人間関連のタスクにおいて大きな価値を持っている。
この課題に対処するために,人間の領域からの情報を動的に増強し,閉塞から弱める動的マスク対応トランス (DMAT) を提案する。
まず,拡張カーネルを用いた拡張畳み込みヘッドの設計を行い,局所的有効コンテキストをキャプチャし,周囲の咬合の影響を緩和する。
目に見える部分に集中するため,複数のマスクを一体化することにより,非閉塞領域が背景に同化することを防止する新しい動的マルチヘッド型人間マスク誘導注意機構を提案する。
さらに、領域アップサンプリング戦略を用いて、補間画像に対するオクルージョンの影響を軽減する。
モデル学習中、人間の領域の回復効果をさらに強調するためにアモーダルロスが開発され、モデルの収束も改善される。
ahpデータセットに関する広範な実験は、最近の最先端の手法よりも優れた性能を示している。
関連論文リスト
- DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - NeuralFusion: Neural Volumetric Rendering under Human-object
Interactions [46.70371238621842]
本稿では,スパース・コンシューマRGBDセンサを用いたボリューム・オブジェクトのキャプチャとレンダリングのためのニューラル・アプローチを提案する。
幾何学的モデリングでは,非剛性鍵体積融合を用いたニューラル暗黙的推論方式を提案する。
また,空間的領域と時間的領域の両方において,ボリュームと画像に基づくレンダリングを組み合わせた階層的ヒューマンオブジェクトテクスチャレンダリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T17:10:07Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。