論文の概要: Leveraging Multi-View Weak Supervision for Occlusion-Aware Multi-Human Parsing
- arxiv url: http://arxiv.org/abs/2509.10093v1
- Date: Fri, 12 Sep 2025 09:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.034613
- Title: Leveraging Multi-View Weak Supervision for Occlusion-Aware Multi-Human Parsing
- Title(参考訳): Occlusion-Aware Multi-Human Parsing のためのマルチビュー弱スーパービジョンの活用
- Authors: Laura Bragagnolo, Matteo Terreran, Leonardo Barcellona, Stefano Ghidoni,
- Abstract要約: マルチヒューマンパーシング(Multi- Human parsing)とは、人体の各部分と所属する人物を関連づけながら、人体の一部をセグメンテーションするタスクである。
本稿では,マルチビュー情報を利用した新たな学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.013740268460309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-human parsing is the task of segmenting human body parts while associating each part to the person it belongs to, combining instance-level and part-level information for fine-grained human understanding. In this work, we demonstrate that, while state-of-the-art approaches achieved notable results on public datasets, they struggle considerably in segmenting people with overlapping bodies. From the intuition that overlapping people may appear separated from a different point of view, we propose a novel training framework exploiting multi-view information to improve multi-human parsing models under occlusions. Our method integrates such knowledge during the training process, introducing a novel approach based on weak supervision on human instances and a multi-view consistency loss. Given the lack of suitable datasets in the literature, we propose a semi-automatic annotation strategy to generate human instance segmentation masks from multi-view RGB+D data and 3D human skeletons. The experiments demonstrate that the approach can achieve up to a 4.20\% relative improvement on human parsing over the baseline model in occlusion scenarios.
- Abstract(参考訳): マルチヒューマンパーシング(英: Multi- Human parsing)とは、人体の各部分をその人に属する人物に関連付け、インスタンスレベルと部分レベルの情報を微粒な人間の理解のために組み合わせながら、人体部分のセグメンテーションを行うタスクである。
本研究では、現在最先端のアプローチが公共データセットで顕著な成果を上げている一方で、重なり合う身体を持つ人々のセグメンテーションにかなり苦労していることを実証する。
重なり合う人々が異なる視点から切り離されるという直感から、我々は、多視点情報を利用した新しいトレーニングフレームワークを提案し、オクルージョン下でのマルチヒューマンパーシングモデルを改善する。
本手法は, トレーニング過程において, 人間のインスタンスに対する弱監督と多視点整合性損失に基づく新しいアプローチを導入し, 学習過程においてそのような知識を統合する。
文献に適切なデータセットが欠如していることを踏まえ,多視点RGB+Dデータと3次元人間の骨格から人間のインスタンスセグメンテーションマスクを生成するための半自動アノテーション戦略を提案する。
実験により、オクルージョンシナリオにおけるベースラインモデル上での人間の解析において、アプローチは最大4.20 %の相対的な改善を達成できることが示された。
関連論文リスト
- Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - View-Invariant Skeleton-based Action Recognition via Global-Local
Contrastive Learning [15.271862140292837]
骨格に基づく人間の行動認識のための手動動作ラベル付けを使わずに、新しいビュー不変表現学習手法を提案する。
我々は、異なる視点から抽出された表現間の相互情報を最大化することにより、ネットワークトレーニングにおいて同一人物に対して同時に取られたマルチビュースケルトンデータを活用する。
提案手法は,入力スケルトンデータのビュー差に頑健であり,教師なしスケルトンに基づく人体行動法の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-09-23T15:00:57Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。