論文の概要: Human-Aware Motion Deblurring
- arxiv url: http://arxiv.org/abs/2001.06816v1
- Date: Sun, 19 Jan 2020 12:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:38:09.725055
- Title: Human-Aware Motion Deblurring
- Title(参考訳): ヒューマン・アウェア・モーション・デブロアリング
- Authors: Ziyi Shen, Wenguan Wang, Xiankai Lu, Jianbing Shen, Haibin Ling,
Tingfa Xu, and Ling Shao
- Abstract要約: 本稿では、前景(FG)と背景(BG)との間に動きのぼかしをアンタングルする人間認識型デブロアリングモデルを提案する。
提案モデルは三分岐エンコーダデコーダアーキテクチャに基づいている。
提案モデルには, エンド・ツー・エンド方式で, 監視, ヒューマン・アウェア・アテンション・メカニズムが組み込まれている。
- 参考スコア(独自算出の注目度): 197.53076361425363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a human-aware deblurring model that disentangles the
motion blur between foreground (FG) humans and background (BG). The proposed
model is based on a triple-branch encoder-decoder architecture. The first two
branches are learned for sharpening FG humans and BG details, respectively;
while the third one produces global, harmonious results by comprehensively
fusing multi-scale deblurring information from the two domains. The proposed
model is further endowed with a supervised, human-aware attention mechanism in
an end-to-end fashion. It learns a soft mask that encodes FG human information
and explicitly drives the FG/BG decoder-branches to focus on their specific
domains. To further benefit the research towards Human-aware Image Deblurring,
we introduce a large-scale dataset, named HIDE, which consists of 8,422 blurry
and sharp image pairs with 65,784 densely annotated FG human bounding boxes.
HIDE is specifically built to span a broad range of scenes, human object sizes,
motion patterns, and background complexities. Extensive experiments on public
benchmarks and our dataset demonstrate that our model performs favorably
against the state-of-the-art motion deblurring methods, especially in capturing
semantic details.
- Abstract(参考訳): 本稿では,前景(FG)と背景(BG)との間に動きのぼかしをアンタングルする人間認識型デブロアリングモデルを提案する。
提案モデルは三分岐エンコーダデコーダアーキテクチャに基づいている。
第1の2つの分枝はそれぞれfg人間とbgの細部を研削するために学習され、第3の分枝は2つの領域からのマルチスケールなデブラリング情報を包括的に融合することにより、グローバルかつ調和的な結果を生み出す。
提案モデルは, エンド・ツー・エンド方式で, 教師付き, 人間対応の注意機構を付与する。
FGの人間の情報をエンコードするソフトマスクを学習し、FG/BGデコーダブランチを明示的に駆動して特定のドメインに集中する。
さらに,人間を認識できる画像デブラリングの研究に資するため,8,422個のぼやけた画像ペアと65,784個のfg人間バウンディングボックスからなるhidという大規模データセットを導入する。
HIDEは、広い範囲のシーン、人間のオブジェクトのサイズ、動きのパターン、背景の複雑さにまたがるように設計されている。
公開ベンチマークとデータセットに関する広範な実験により,我々のモデルは,特にセマンティクス詳細の把握において,最先端のモーションデブラリング手法に対して好適に機能することが示された。
関連論文リスト
- Cross-view and Cross-pose Completion for 3D Human Understanding [16.11243039311909]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion [117.95224531331142]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。
そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。
分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文 参考訳(メタデータ) (2023-05-25T17:59:35Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose [20.099670445427964]
単一の単分子画像からマルチヒューマンボディメッシュを再構築することは重要な問題であるが、コンピュータビジョンの問題である。
本研究では,単一グラフニューラルネットワークを用いて,マルチヒューマン2次元ポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。
論文 参考訳(メタデータ) (2022-05-25T08:54:52Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。