論文の概要: Inverse Neural Rendering for Explainable Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2404.12359v1
- Date: Thu, 18 Apr 2024 17:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 11:52:23.156716
- Title: Inverse Neural Rendering for Explainable Multi-Object Tracking
- Title(参考訳): 説明可能な多対象追跡のための逆ニューラルレンダリング
- Authors: Julian Ost, Tanushree Banerjee, Mario Bijelic, Felix Heide,
- Abstract要約: 我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
- 参考スコア(独自算出の注目度): 35.072142773300655
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Today, most methods for image understanding tasks rely on feed-forward neural networks. While this approach has allowed for empirical accuracy, efficiency, and task adaptation via fine-tuning, it also comes with fundamental disadvantages. Existing networks often struggle to generalize across different datasets, even on the same task. By design, these networks ultimately reason about high-dimensional scene features, which are challenging to analyze. This is true especially when attempting to predict 3D information based on 2D images. We propose to recast 3D multi-object tracking from RGB cameras as an \emph{Inverse Rendering (IR)} problem, by optimizing via a differentiable rendering pipeline over the latent space of pre-trained 3D object representations and retrieve the latents that best represent object instances in a given input image. To this end, we optimize an image loss over generative latent spaces that inherently disentangle shape and appearance properties. We investigate not only an alternate take on tracking but our method also enables examining the generated objects, reasoning about failure situations, and resolving ambiguous cases. We validate the generalization and scaling capabilities of our method by learning the generative prior exclusively from synthetic data and assessing camera-based 3D tracking on the nuScenes and Waymo datasets. Both these datasets are completely unseen to our method and do not require fine-tuning. Videos and code are available at https://light.princeton.edu/inverse-rendering-tracking/.
- Abstract(参考訳): 現在、画像理解タスクのほとんどの方法はフィードフォワードニューラルネットワークに依存している。
このアプローチは、精密チューニングによる経験的精度、効率、タスク適応を可能にするが、根本的な欠点もある。
既存のネットワークは、同じタスクであっても、異なるデータセットをまたいだ一般化に苦慮することが多い。
デザインによって、これらのネットワークは最終的に高次元のシーンの特徴を推論し、分析は困難である。
これは特に2次元画像に基づいて3次元情報を予測しようとする場合に当てはまる。
本稿では,RGBカメラからの3Dマルチオブジェクト追跡を,事前学習された3Dオブジェクト表現の潜時空間上の微分可能なレンダリングパイプラインを介して最適化し,与えられた入力画像中のオブジェクトインスタンスを最もよく表現する潜時情報を検索することで,「emph{Inverse Rendering (IR)}問題」として再キャストすることを提案する。
そこで本研究では,自然に形状や外観特性を乱す生成潜在空間に対する画像損失を最適化する。
本手法では, 別途追跡を行うだけでなく, 生成したオブジェクトの検査, 故障状況の推論, あいまいなケースの解決も可能である。
合成データのみから生成前の生成を学習し,nuScenesおよびWaymoデータセット上でカメラベースの3Dトラッキングを評価することにより,本手法の一般化とスケーリング能力を検証する。
どちらのデータセットも我々の手法には全く見えず、微調整は不要である。
ビデオとコードはhttps://light.princeton.edu/inverse-rendering-tracking/で公開されている。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - Image GANs meet Differentiable Rendering for Inverse Graphics and
Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。
提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-18T22:29:07Z) - Differentiable Rendering: A Survey [22.35293459579154]
微分レンダリングは、画像を通して3Dオブジェクトの勾配を計算し伝播させる新しい分野である。
本稿では、既存の文献をレビューし、差別化可能なレンダリングの現状と応用、オープンな研究課題について論じる。
論文 参考訳(メタデータ) (2020-06-22T08:14:52Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。