論文の概要: Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.00309v1
- Date: Tue, 1 Oct 2024 01:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:26:14.703223
- Title: Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models
- Title(参考訳): Ask, Pose, Unite:ビジョン言語モデルとの密接なインタラクションのためのデータ取得のスケーリング
- Authors: Laura Bravo-Sánchez, Jaewoo Heo, Zhenzhen Weng, Kuan-Chieh Wang, Serena Yeung-Levy,
- Abstract要約: 密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
- 参考スコア(独自算出の注目度): 5.541130887628606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social dynamics in close human interactions pose significant challenges for Human Mesh Estimation (HME), particularly due to the complexity of physical contacts and the scarcity of training data. Addressing these challenges, we introduce a novel data generation method that utilizes Large Vision Language Models (LVLMs) to annotate contact maps which guide test-time optimization to produce paired image and pseudo-ground truth meshes. This methodology not only alleviates the annotation burden but also enables the assembly of a comprehensive dataset specifically tailored for close interactions in HME. Our Ask Pose Unite (APU) dataset, comprising over 6.2k human mesh pairs in contact covering diverse interaction types, is curated from images depicting naturalistic person-to-person scenes. We empirically show that using our dataset to train a diffusion-based contact prior, used as guidance during optimization, improves mesh estimation on unseen interactions. Our work addresses longstanding challenges of data scarcity for close interactions in HME enhancing the field's capabilities of handling complex interaction scenarios.
- Abstract(参考訳): 密接な人間同士の相互作用における社会的ダイナミクスは、特に物理的接触の複雑さと訓練データの不足により、ヒューマンメッシュ推定(HME)に重大な課題をもたらす。
これらの課題に対処するため、我々はLVLM(Large Vision Language Models)を用いた新しいデータ生成手法を導入し、テスト時間最適化をガイドし、ペア画像と擬似地上真理メッシュを生成する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
我々のAsk Pose Unite(APU)データセットは、さまざまなインタラクションタイプをカバーする6.2k以上の人メッシュペアで構成されており、自然主義的な人対人シーンを描いた画像からキュレートされている。
我々は、我々のデータセットを使用して、最適化時にガイダンスとして使用される拡散ベースのコンタクトを事前にトレーニングし、目に見えないインタラクションのメッシュ推定を改善することを実証的に示す。
我々の研究は、HMEにおける密接な相互作用のためのデータ不足という長年にわたる課題に対処し、複雑な相互作用シナリオを扱う分野の能力を強化する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - FedNE: Surrogate-Assisted Federated Neighbor Embedding for Dimensionality Reduction [47.336599393600046]
textscFedNEは、textscFedAvgフレームワークと対照的なNEテクニックを統合する新しいアプローチである。
我々は、合成データセットと実世界のデータセットの両方について包括的な実験を行う。
論文 参考訳(メタデータ) (2024-09-17T19:23:24Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Ins-HOI: Instance Aware Human-Object Interactions Recovery [44.02128629239429]
本稿では,エンド・ツー・エンドのインスタンス・アウェアなヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。
Ins-HOIはインスタンスレベルの再構築をサポートし、合理的で現実的な接触面を提供する。
我々は、現実世界の人間-椅子と手-物体の相互作用を伴う5.2kの高品質スキャンを含む、大規模で高忠実な3Dスキャンデータセットを収集します。
論文 参考訳(メタデータ) (2023-12-15T09:30:47Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - Joint-Relation Transformer for Multi-Person Motion Prediction [79.08243886832601]
相互作用モデリングの強化を目的とした結合関係変換器を提案する。
提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
論文 参考訳(メタデータ) (2023-08-09T09:02:47Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。