論文の概要: Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
- arxiv url: http://arxiv.org/abs/2502.13637v1
- Date: Wed, 19 Feb 2025 11:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:08.979011
- Title: Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
- Title(参考訳): コンテキスト認識型ヒューマンアクダクタンス生成のための相互横断的アテンションの探索
- Authors: Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal, Michael Blumenstein,
- Abstract要約: 本研究では,2次元シーンにおける空き時間予測のためのシーンコンテキストを符号化する新しいクロスアテンション機構を提案する。
まず,グローバルシーンのコンテキストエンコーディングに条件付き可変オートエンコーダを用いて,シーン内の人物の確率的位置をサンプリングする。
次に、局所文脈エンコーディングの分類器を用いて、既存の人間のポーズ候補のセットから潜在的ポーズテンプレートを予測する。
- 参考スコア(独自算出の注目度): 18.73832646369506
- License:
- Abstract: Human affordance learning investigates contextually relevant novel pose prediction such that the estimated pose represents a valid human action within the scene. While the task is fundamental to machine perception and automated interactive navigation agents, the exponentially large number of probable pose and action variations make the problem challenging and non-trivial. However, the existing datasets and methods for human affordance prediction in 2D scenes are significantly limited in the literature. In this paper, we propose a novel cross-attention mechanism to encode the scene context for affordance prediction by mutually attending spatial feature maps from two different modalities. The proposed method is disentangled among individual subtasks to efficiently reduce the problem complexity. First, we sample a probable location for a person within the scene using a variational autoencoder (VAE) conditioned on the global scene context encoding. Next, we predict a potential pose template from a set of existing human pose candidates using a classifier on the local context encoding around the predicted location. In the subsequent steps, we use two VAEs to sample the scale and deformation parameters for the predicted pose template by conditioning on the local context and template class. Our experiments show significant improvements over the previous baseline of human affordance injection into complex 2D scenes.
- Abstract(参考訳): 人間の余暇学習は、推定されたポーズがシーン内の有効な人間の行動を表すように、文脈的に関係のある新しいポーズを予測する。
このタスクは、機械認識や対話型ナビゲーションエージェントの自動化に不可欠であるが、指数関数的に多くのポーズやアクションのバリエーションが問題を難しく、非自明にしている。
しかし、既存の2次元シーンにおける人手当予測のためのデータセットや手法は、文献において著しく制限されている。
本論文では,2つの異なるモードの空間特徴マップを相互に参加させることにより,空き時間予測のためのシーンコンテキストを符号化する新しいクロスアテンション機構を提案する。
提案手法は個々のサブタスク間で分散し,問題の複雑性を効率的に低減する。
まず,グローバルなシーンコンテキストエンコーディングを前提とした可変オートエンコーダ(VAE)を用いて,シーン内の人物の確率的位置をサンプリングする。
次に、予測された位置の周囲の局所的コンテキストを符号化した分類器を用いて、既存のポーズ候補のセットから潜在的ポーズテンプレートを予測する。
その後のステップでは、ローカルコンテキストとテンプレートクラスを条件付けして、予測されたポーズテンプレートのスケールと変形パラメータをサンプリングするために、2つのVAEを使用します。
本実験は, 複雑な2次元シーンへの人為的手当注入の以前の基準よりも, 大幅に改善されたことを示す。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。