Fugu-MT 論文翻訳(概要): Learning Hand-Held Object Reconstruction from In-The-Wild Videos

論文の概要: Learning Hand-Held Object Reconstruction from In-The-Wild Videos

arxiv url: http://arxiv.org/abs/2305.03036v1
Date: Thu, 4 May 2023 17:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 14:28:05.821833
Title: Learning Hand-Held Object Reconstruction from In-The-Wild Videos
Title（参考訳）: 野生映像からのハンドヘルド物体復元の学習
Authors: Aditya Prakash, Matthew Chang, Matthew Jin, Saurabh Gupta
Abstract要約: 我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
参考スコア（独自算出の注目度）: 19.16274394098004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior works for reconstructing hand-held objects from a single image rely on direct 3D shape supervision which is challenging to gather in real world at scale. Consequently, these approaches do not generalize well when presented with novel objects in in-the-wild settings. While 3D supervision is a major bottleneck, there is an abundance of in-the-wild raw video data showing hand-object interactions. In this paper, we automatically extract 3D supervision (via multiview 2D supervision) from such raw video data to scale up the learning of models for hand-held object reconstruction. This requires tackling two key challenges: unknown camera pose and occlusion. For the former, we use hand pose (predicted from existing techniques, e.g. FrankMocap) as a proxy for object pose. For the latter, we learn data-driven 3D shape priors using synthetic objects from the ObMan dataset. We use these indirect 3D cues to train occupancy networks that predict the 3D shape of objects from a single RGB image. Our experiments on the MOW and HO3D datasets show the effectiveness of these supervisory signals at predicting the 3D shape for real-world hand-held objects without any direct real-world 3D supervision.
Abstract（参考訳）: 1枚の画像から手持ちの物体を復元するための先行研究は、現実世界で大規模に収集することが難しい直接3d形状の監督に依存している。したがって、これらのアプローチは、イン・ザ・ワイルドの設定で新しいオブジェクトが提示されるとうまく一般化しない。 3d監督は大きなボトルネックであるが、手とオブジェクトの相互作用を示す生の動画データが豊富にある。本稿では,このような生ビデオデータから(マルチビュー2Dによる)3D監視を自動的に抽出し,ハンドヘルドオブジェクト再構築のためのモデルの学習を拡大する。これは、未知のカメラポーズとオクルージョンという、2つの重要な課題に取り組む必要がある。前者に対しては、オブジェクトポーズのプロキシとしてハンドポーズ(FrankMocapなど、既存のテクニックから予測される)を使用します。後者では,ObManデータセットから合成オブジェクトを用いて,データ駆動型3D形状の事前学習を行う。 rgb画像から物体の3d形状を予測する、占有ネットワークのトレーニングに、これらの間接的3d手がかりを用いています。このMOWおよびHO3Dデータセットを用いた実験により,実世界の3Dを直接監督することなく実世界のハンドヘルドオブジェクトの3次元形状を予測できることを示す。

関連論文リスト

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping [7.222966501323922]
本研究では,単一視界から透明物体とスペキュラ物体をロボットで把握することのできる,学習自由フレームワークSR3Dを提案する。具体的には、単一のビューRGBと深度画像が与えられた場合、SR3Dはまず外部視覚モデルを使用して3D再構成されたオブジェクトメッシュを生成する。そして、鍵となるアイデアは、3Dオブジェクトのポーズとスケールを決定し、再構成されたオブジェクトを元の奥行き劣化した3Dシーンに正確にローカライズすることだ。
論文参考訳（メタデータ） (2025-05-30T07:38:46Z)
Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。 Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文参考訳（メタデータ） (2025-04-30T15:42:23Z)
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images [66.77399370856462]
Amodal3Rは、部分的な観測から3Dオブジェクトを再構成するために設計された条件付き3D生成モデルである。実際のシーンに隠蔽物が存在する場合でも、完全な3Dオブジェクトを復元することを学ぶ。 2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-03-17T17:59:01Z)
ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。 ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文参考訳（メタデータ） (2024-06-13T22:44:26Z)
Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。 1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文参考訳（メタデータ） (2024-04-09T17:55:41Z)
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文参考訳（メタデータ） (2024-03-19T03:39:43Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文参考訳（メタデータ） (2023-03-03T14:02:50Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文参考訳（メタデータ） (2020-07-07T18:01:29Z)
From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文参考訳（メタデータ） (2020-05-05T04:25:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。