論文の概要: Scene-aware Human Pose Generation using Transformer
- arxiv url: http://arxiv.org/abs/2308.02177v1
- Date: Fri, 4 Aug 2023 07:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:43:16.351702
- Title: Scene-aware Human Pose Generation using Transformer
- Title(参考訳): トランスを用いたシーン認識型ヒューマンポーズ生成
- Authors: Jieteng Yao, Junjie Chen, Li Niu, Bin Sheng
- Abstract要約: Affordance Learningは、シーンにおけるアクターのインタラクション機会を考慮し、シーン理解とインテリジェントなロボティクスに広く応用されている。
本稿では,場面における合理的な人間のポーズを生成するために,余暇を文脈として利用して,文脈的空き時間学習に焦点を当てる。
- 参考スコア(独自算出の注目度): 22.264449833429666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance learning considers the interaction opportunities for an actor in
the scene and thus has wide application in scene understanding and intelligent
robotics. In this paper, we focus on contextual affordance learning, i.e.,
using affordance as context to generate a reasonable human pose in a scene.
Existing scene-aware human pose generation methods could be divided into two
categories depending on whether using pose templates. Our proposed method
belongs to the template-based category, which benefits from the representative
pose templates. Moreover, inspired by recent transformer-based methods, we
associate each query embedding with a pose template, and use the interaction
between query embeddings and scene feature map to effectively predict the scale
and offsets for each pose template. In addition, we employ knowledge
distillation to facilitate the offset learning given the predicted scale.
Comprehensive experiments on Sitcom dataset demonstrate the effectiveness of
our method.
- Abstract(参考訳): Affordance Learningは、シーンにおけるアクターのインタラクション機会を考慮し、シーン理解とインテリジェントなロボティクスに広く応用されている。
本稿では,コンテキストアフォーアンスをコンテキストとして使用することで,シーンにおける合理的な人間のポーズを生成する,コンテキストアフォーアンス学習に着目した。
既存のシーン認識型ポーズ生成手法は、ポーズテンプレートを使用するかどうかによって2つのカテゴリに分けられる。
提案手法は,代表的なポーズテンプレートの恩恵を受けるテンプレートベースのカテゴリに属する。
さらに,最近のtransformerベースの手法に触発されて,各クエリ埋め込みをポーズテンプレートに関連付け,クエリ埋め込みとシーン特徴マップ間のインタラクションを用いて,各ポーズテンプレートのスケールとオフセットを効果的に予測する。
また,予測されたスケールのオフセット学習を容易にするため,知識蒸留を用いる。
Sitcomデータセットの総合実験により,本手法の有効性が示された。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - CloSET: Modeling Clothed Humans on Continuous Surface with Explicit
Template Decomposition [36.39531876183322]
そこで我々は,明示的な衣服関連テンプレートを分解し,それらにポーズ依存のしわを加えることを提案する。
近年の最先端のポイントベース手法におけるシームアーティファクト問題に対処するために,体表面の点特徴を学習することを提案する。
我々のアプローチは、既存の2つのデータセットと、新しく導入されたデータセットで検証され、見当たらないポーズで服の変形結果が改善された。
論文 参考訳(メタデータ) (2023-04-06T15:50:05Z) - Global Context-Aware Person Image Generation [24.317541784957285]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。