論文の概要: Reconstructing Groups of People with Hypergraph Relational Reasoning
- arxiv url: http://arxiv.org/abs/2308.15844v1
- Date: Wed, 30 Aug 2023 08:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:26:10.353743
- Title: Reconstructing Groups of People with Hypergraph Relational Reasoning
- Title(参考訳): ハイパーグラフリレーショナル推論を用いたグループ再構築
- Authors: Buzhen Huang, Jingyi Ju, Zhihao Li and Yangang Wang
- Abstract要約: 単眼画像から集団を再構築するために,群集の特徴を利用する。
複素および高次相関関係を定式化するために,新しいハイパーグラフリレーショナル推論ネットワークを提案する。
このアプローチは、混み合ったシナリオと一般的なシナリオの両方において、他のベースラインメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 22.440625156246494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the mutual occlusion, severe scale variation, and complex spatial
distribution, the current multi-person mesh recovery methods cannot produce
accurate absolute body poses and shapes in large-scale crowded scenes. To
address the obstacles, we fully exploit crowd features for reconstructing
groups of people from a monocular image. A novel hypergraph relational
reasoning network is proposed to formulate the complex and high-order relation
correlations among individuals and groups in the crowd. We first extract
compact human features and location information from the original
high-resolution image. By conducting the relational reasoning on the extracted
individual features, the underlying crowd collectiveness and interaction
relationship can provide additional group information for the reconstruction.
Finally, the updated individual features and the localization information are
used to regress human meshes in camera coordinates. To facilitate the network
training, we further build pseudo ground-truth on two crowd datasets, which may
also promote future research on pose estimation and human behavior
understanding in crowded scenes. The experimental results show that our
approach outperforms other baseline methods both in crowded and common
scenarios. The code and datasets are publicly available at
https://github.com/boycehbz/GroupRec.
- Abstract(参考訳): 相互閉塞, 厳密なスケール変動, 複雑な空間分布のため, 現在のマルチ人メッシュ回収法では, 大規模混雑したシーンにおいて, 正確な絶対体のポーズや形状を生成できない。
これらの障害に対処するため,単眼画像から集団を再構築するために,群集の特徴をフル活用する。
集団内の個人とグループ間の複雑かつ高次関係関係を定式化する新しいハイパーグラフ関係推論ネットワークを提案する。
まず、元の高解像度画像からコンパクトな人的特徴と位置情報を抽出する。
抽出した個々の特徴に対する関係推論を行うことにより、下層の集団性と相互作用関係は再構築のための追加のグループ情報を提供することができる。
最後に、更新された個々の特徴とローカライズ情報を使用して、人間のメッシュをカメラ座標でレグレッションする。
ネットワークトレーニングを容易にするために,2つの群集データセット上に疑似接地を構築させるとともに,混み合った場面におけるポーズ推定と人間の行動理解に関する今後の研究を促進させる。
実験の結果,本手法は混み合ったシナリオと共通のシナリオの両方において,他のベースラインメソッドよりも優れていることがわかった。
コードとデータセットはhttps://github.com/boycehbz/GroupRecで公開されている。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - Geometric Graph Neural Network Modeling of Human Interactions in Crowded Environments [3.7752830020595787]
本稿では,歩行者のインタラクションをモデル化し,将来の軌跡を予測するために,心理学的な研究からドメイン知識を統合した幾何学的グラフニューラルネットワークアーキテクチャを提案する。
複数のデータセットにまたがる評価では、平均値と最終変位誤差のメトリクスを減らして予測精度が向上した。
論文 参考訳(メタデータ) (2024-10-22T20:33:10Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Crowd3D: Towards Hundreds of People Reconstruction from a Single Image [57.58149031283827]
我々は,1つの大画面画像から数百人のグローバルな一貫性を持つ人々の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
多数の人やさまざまな人体サイズに対応するため,適応型人間中心収穫方式を設計する。
論文 参考訳(メタデータ) (2023-01-23T11:45:27Z) - PGGANet: Pose Guided Graph Attention Network for Person
Re-identification [0.0]
人物再識別(ReID)は、異なるカメラで撮影された画像から人物を回収することを目的としている。
局所的な特徴と人像のグローバルな特徴を併用することで、人物の検索に堅牢な特徴表現を与えることができることが証明されている。
本研究では,ポーズガイド付きグラフアテンションネットワーク,グローバル機能のための1つのブランチ,中粒体機能のための1つのブランチ,粒状キーポイント機能のための1つのブランチからなるマルチブランチアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-29T09:47:39Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - An Ensemble with Shared Representations Based on Convolutional Networks
for Continually Learning Facial Expressions [19.72032908764253]
アンサンブル予測による半教師付き学習は、人間とロボットの相互作用中に不規則な表情の高い露出を利用するための効率的な戦略です。
伝統的なアンサンブルベースのシステムは、高い冗長性につながる複数の独立した分類器で構成されています。
提案手法は, 異なるデータ分布から抽出したアンサンブルサンプルを用いて, 表情を連続的に学習できることを示す。
論文 参考訳(メタデータ) (2021-03-05T20:40:52Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。