Fugu-MT 論文翻訳(概要): 3D Reconstruction of Objects in Hands without Real World 3D Supervision

論文の概要: 3D Reconstruction of Objects in Hands without Real World 3D Supervision

arxiv url: http://arxiv.org/abs/2305.03036v2
Date: Mon, 23 Sep 2024 14:38:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 15:13:22.894430
Title: 3D Reconstruction of Objects in Hands without Real World 3D Supervision
Title（参考訳）: 実世界3次元シュミレーションを伴わない手の物体の3次元再構成
Authors: Aditya Prakash, Matthew Chang, Matthew Jin, Ruisen Tu, Saurabh Gupta,
Abstract要約: ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
参考スコア（独自算出の注目度）: 12.70221786947807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior works for reconstructing hand-held objects from a single image train models on images paired with 3D shapes. Such data is challenging to gather in the real world at scale. Consequently, these approaches do not generalize well when presented with novel objects in in-the-wild settings. While 3D supervision is a major bottleneck, there is an abundance of a) in-the-wild raw video data showing hand-object interactions and b) synthetic 3D shape collections. In this paper, we propose modules to leverage 3D supervision from these sources to scale up the learning of models for reconstructing hand-held objects. Specifically, we extract multiview 2D mask supervision from videos and 3D shape priors from shape collections. We use these indirect 3D cues to train occupancy networks that predict the 3D shape of objects from a single RGB image. Our experiments in the challenging object generalization setting on in-the-wild MOW dataset show 11.6% relative improvement over models trained with 3D supervision on existing datasets.
Abstract（参考訳）: 以前は、手持ちの物体を1枚のイメージトレインモデルから3次元形状と組み合わせた画像に再構成する作業を行っていた。このようなデータは、現実の世界で大規模に収集することは困難である。したがって、これらの手法は、新しいオブジェクトをウィジェット内で提示する際には、うまく一般化しない。 3Dの監督は大きなボトルネックだが、多岐にわたる。 a)手動物体の相互作用と映像データ b) 合成3次元形状コレクション本稿では,これらのソースから3Dインスペクションを活用するモジュールを提案し,ハンドヘルドオブジェクトの再構築のためのモデル学習をスケールアップする。具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。既存のデータセットを3Dで教師するモデルよりも11.6%の相対的な改善が見られた。

関連論文リスト

Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。 Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文参考訳（メタデータ） (2025-04-30T15:42:23Z)
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images [66.77399370856462]
Amodal3Rは、部分的な観測から3Dオブジェクトを再構成するために設計された条件付き3D生成モデルである。実際のシーンに隠蔽物が存在する場合でも、完全な3Dオブジェクトを復元することを学ぶ。 2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-03-17T17:59:01Z)
ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。 ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文参考訳（メタデータ） (2024-06-13T22:44:26Z)
Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。 1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文参考訳（メタデータ） (2024-04-09T17:55:41Z)
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文参考訳（メタデータ） (2024-03-19T03:39:43Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文参考訳（メタデータ） (2023-03-03T14:02:50Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文参考訳（メタデータ） (2020-07-07T18:01:29Z)
From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文参考訳（メタデータ） (2020-05-05T04:25:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。