論文の概要: Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips
- arxiv url: http://arxiv.org/abs/2309.05663v1
- Date: Mon, 11 Sep 2023 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:31:02.006074
- Title: Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips
- Title(参考訳): 日中ハンドオブジェクトインタラクションクリップの拡散ガイドによる再構成
- Authors: Yufei Ye, Poorvi Hebbar, Abhinav Gupta, Shubham Tulsiani
- Abstract要約: 短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
- 参考スコア(独自算出の注目度): 38.02945794078731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the task of reconstructing hand-object interactions from short
video clips. Given an input video, our approach casts 3D inference as a
per-video optimization and recovers a neural 3D representation of the object
shape, as well as the time-varying motion and hand articulation. While the
input video naturally provides some multi-view cues to guide 3D inference,
these are insufficient on their own due to occlusions and limited viewpoint
variations. To obtain accurate 3D, we augment the multi-view signals with
generic data-driven priors to guide reconstruction. Specifically, we learn a
diffusion network to model the conditional distribution of (geometric)
renderings of objects conditioned on hand configuration and category label, and
leverage it as a prior to guide the novel-view renderings of the reconstructed
scene. We empirically evaluate our approach on egocentric videos across 6
object categories, and observe significant improvements over prior single-view
and multi-view methods. Finally, we demonstrate our system's ability to
reconstruct arbitrary clips from YouTube, showing both 1st and 3rd person
interactions.
- Abstract(参考訳): 短いビデオクリップから手と物体のインタラクションを再構築するタスクに取り組む。
入力ビデオが与えられると、3d推論をビデオ毎の最適化としてキャストし、オブジェクト形状のニューラル3d表現と、時間変化の動きと手の調音を復元する。
入力ビデオは自然に3D推論を導くための多視点的手がかりを提供するが、それらは排他的および限られた視点変化のため、それ自体では不十分である。
正確な3次元化を実現するために,多視点信号に汎用データ駆動プリエントを付加し,再構成のガイドを行う。
具体的には,手の配置やカテゴリラベルに条件付けされたオブジェクトの(幾何学的)レンダリングの条件分布をモデル化する拡散ネットワークを学習し,それを利用して再構成されたシーンの新規なレンダリングをガイドする。
6つの対象カテゴリにわたるエゴセントリックビデオに対するアプローチを実証的に評価し,先行するシングルビューおよびマルチビュー手法に対する大幅な改善を観察した。
最後に,YouTubeから任意のクリップを再構成し,第1者と第3者の両方のインタラクションを示す。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Multi-view Inversion for 3D-aware Generative Adversarial Networks [3.95944314850151]
人間の頭部に対する現在の3D GANインバージョン法は、通常、1つの正面像のみを使用して3Dヘッドモデル全体を再構築する。
これにより、マルチビューデータやダイナミックビデオが利用可能になったときに意味のある情報が残される。
提案手法は既存の最先端3D GANインバージョン技術を利用して,同一対象の複数のビューを一貫した同時インバージョンを可能にする。
論文 参考訳(メタデータ) (2023-12-08T19:28:40Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Reconstructing and grounding narrated instructional videos in 3D [99.22297066405741]
このようなオブジェクトを再構築し、関連するナレーションを3Dでローカライズすることを目的としている。
本稿では,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。
自動車メンテナンス分野におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-09T16:49:10Z) - Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies
from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。
このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。
本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文 参考訳(メタデータ) (2021-06-22T04:26:11Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。