論文の概要: Reconstructing Animals and the Wild
- arxiv url: http://arxiv.org/abs/2411.18807v1
- Date: Wed, 27 Nov 2024 23:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:26.217924
- Title: Reconstructing Animals and the Wild
- Title(参考訳): 動物と野生の再構築
- Authors: Peter Kulits, Michael J. Black, Silvia Zuffi,
- Abstract要約: 本研究では,単一画像から自然シーンを再構成する手法を提案する。
当社のアプローチは、大規模言語モデルにおける強力な世界の先駆的活用の進歩に基づくものです。
本稿では,100万枚の画像と数千枚の資産からなる合成データセットを提案する。
- 参考スコア(独自算出の注目度): 51.98009864071166
- License:
- Abstract: The idea of 3D reconstruction as scene understanding is foundational in computer vision. Reconstructing 3D scenes from 2D visual observations requires strong priors to disambiguate structure. Much work has been focused on the anthropocentric, which, characterized by smooth surfaces, coherent normals, and regular edges, allows for the integration of strong geometric inductive biases. Here, we consider a more challenging problem where such assumptions do not hold: the reconstruction of natural scenes containing trees, bushes, boulders, and animals. While numerous works have attempted to tackle the problem of reconstructing animals in the wild, they have focused solely on the animal, neglecting environmental context. This limits their usefulness for analysis tasks, as animals exist inherently within the 3D world, and information is lost when environmental factors are disregarded. We propose a method to reconstruct natural scenes from single images. We base our approach on recent advances leveraging the strong world priors ingrained in Large Language Models and train an autoregressive model to decode a CLIP embedding into a structured compositional scene representation, encompassing both animals and the wild (RAW). To enable this, we propose a synthetic dataset comprising one million images and thousands of assets. Our approach, having been trained solely on synthetic data, generalizes to the task of reconstructing animals and their environments in real-world images. We will release our dataset and code to encourage future research at https://raw.is.tue.mpg.de/
- Abstract(参考訳): シーン理解としての3D再構成の考え方は、コンピュータビジョンの基盤となっている。
2次元視覚観測から3次元シーンを再構成するには、構造を曖昧にするためには、強い事前を必要とする。
多くの研究は、滑らかな表面、コヒーレントな正規項、正規辺によって特徴づけられる人間中心性に焦点を当てており、強い幾何学的帰納バイアスの統合を可能にしている。
ここでは、木、茂み、岩、動物を含む自然の景観の再構築という、そのような仮定が成り立たない、より困難な問題について考察する。
多くの研究が野生の動物の再構築に取り組んできたが、彼らは環境条件を無視して動物にのみ焦点を絞った。
動物は自然に3Dの世界に存在するため、環境要因が無視されているときに情報が失われるため、分析作業における有用性が制限される。
本研究では,単一画像から自然シーンを再構成する手法を提案する。
我々は,CLIPを合成シーンの表現にデコードし,動物と野生(RAW)の両方を包含する自己回帰モデルを訓練する。
これを実現するために,100万の画像と数千の資産からなる合成データセットを提案する。
本手法は, 合成データのみに基づいて訓練され, 実際の画像から動物とその環境を再構築する作業に一般化される。
将来の研究を促進するために、データセットとコードをhttps://raw.is.tue.mpg.de/でリリースします。
関連論文リスト
- Dessie: Disentanglement for Articulated 3D Horse Shape and Pose Estimation from Images [21.718426435322925]
合成データ生成とゆがみを利用して3次元形状とポーズを復元する最初の手法を提案する。
我々の方法であるDessieは、既存の3D馬の復元方法を超え、シマウマ、ウシ、シカといった他の大型動物に一般化する。
論文 参考訳(メタデータ) (2024-10-04T13:52:22Z) - Learning the 3D Fauna of the Web [70.01196719128912]
3D-Faunaは,100種以上の動物種を対象に,パンカテゴリーで変形可能な3D動物モデルを共同で学習する手法である。
動物モデリングにおける重要なボトルネックの1つは、トレーニングデータの可用性の制限である。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。
論文 参考訳(メタデータ) (2024-01-04T18:32:48Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - 3D Clothed Human Reconstruction in the Wild [67.35107130310257]
ClothWildは、Wild内の画像のロバスト性に対処する、3Dの服を着た人間の再構築フレームワークである。
そこで本研究では,Wild データセットの2次元教師対象でトレーニング可能な弱教師付きパイプラインを提案する。
提案したClosWildは最先端の手法よりもはるかに正確で堅牢な結果が得られる。
論文 参考訳(メタデータ) (2022-07-20T17:33:19Z) - LASSIE: Learning Articulated Shapes from Sparse Image Ensemble via 3D
Part Discovery [72.3681707384754]
そこで,本研究では,特定の動物種について,数枚の画像のみを用いて,動物の3次元ポーズと形状を推定する現実的な問題設定を提案する。
我々は2Dや3Dの地平線アノテーションを前提としないし、多視点や時間的情報も利用しない。
そこで本研究では,3次元部品を自己監督的に発見する新しい最適化フレームワークLASSIEを提案する。
論文 参考訳(メタデータ) (2022-07-07T17:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。