論文の概要: Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding
- arxiv url: http://arxiv.org/abs/2504.17441v1
- Date: Thu, 24 Apr 2025 11:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.337763
- Title: Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding
- Title(参考訳): 予測最適化: 4次元物体理解のための自己改善サイクル
- Authors: Mingxuan Wu, Huang Huang, Justin Kerr, Chung Min Kim, Anthony Zhang, Brent Yi, Angjoo Kanazawa,
- Abstract要約: 予測と最適化をインターリーブする自己改善フレームワークであるPredict-Distill(POD)を紹介する。
PODは、RGBフレームから局所的なポーズを予測するために、ニューラルネットワークを反復的にトレーニングする。
実世界14件, 合成対象物5件のPODを各種関節型で評価した。
- 参考スコア(独自算出の注目度): 26.65605206605145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can resort to long-form inspection to build intuition on predicting the 3D configurations of unseen objects. The more we observe the object motion, the better we get at predicting its 3D state immediately. Existing systems either optimize underlying representations from multi-view observations or train a feed-forward predictor from supervised datasets. We introduce Predict-Optimize-Distill (POD), a self-improving framework that interleaves prediction and optimization in a mutually reinforcing cycle to achieve better 4D object understanding with increasing observation time. Given a multi-view object scan and a long-form monocular video of human-object interaction, POD iteratively trains a neural network to predict local part poses from RGB frames, uses this predictor to initialize a global optimization which refines output poses through inverse rendering, then finally distills the results of optimization back into the model by generating synthetic self-labeled training data from novel viewpoints. Each iteration improves both the predictive model and the optimized motion trajectory, creating a virtuous cycle that bootstraps its own training data to learn about the pose configurations of an object. We also introduce a quasi-multiview mining strategy for reducing depth ambiguity by leveraging long video. We evaluate POD on 14 real-world and 5 synthetic objects with various joint types, including revolute and prismatic joints as well as multi-body configurations where parts detach or reattach independently. POD demonstrates significant improvement over a pure optimization baseline which gets stuck in local minima, particularly for longer videos. We also find that POD's performance improves with both video length and successive iterations of the self-improving cycle, highlighting its ability to scale performance with additional observations and looped refinement.
- Abstract(参考訳): 人間は、見えない物体の3D構成を予測する直感を構築するために、ロングフォームな検査を利用することができる。
物体の動きを観察すればするほど、すぐにその3D状態を予測できる。
既存のシステムは、マルチビュー観測から基礎となる表現を最適化するか、あるいは教師付きデータセットからフィードフォワード予測をトレーニングする。
予測と最適化を相互強化サイクルでインターリーブする自己改善フレームワークであるPredict-Optimize-Distill(POD)を導入し,観察時間の増加とともに,より優れた4Dオブジェクト理解を実現する。
多視点オブジェクトスキャンと人間とオブジェクトの相互作用の長いビデオが与えられた後、PODはニューラルネットワークを反復的にトレーニングし、RGBフレームからの局所的なポーズを予測し、この予測器を使用して、逆レンダリングによって出力のポーズを洗練するグローバルな最適化を初期化し、最終的に合成自己ラベルのトレーニングデータを新しい視点から生成することで、モデルに最適化結果の蒸留を行う。
各イテレーションは予測モデルと最適化された動き軌跡の両方を改善し、オブジェクトのポーズ設定について学ぶために、自身のトレーニングデータをブートストラップする活発なサイクルを生成する。
また,長い映像を生かして奥行きの曖昧さを軽減するための準マルチビューマイニング戦略も導入した。
実世界14種および合成対象5種についてPODを評価し,各部位が独立に剥離・再剥離する多体構成を含む各種関節型について検討した。
PODは、ローカルのミニマ、特に長いビデオでは、純粋な最適化ベースラインよりも大幅に改善されている。
また、PODのパフォーマンスは、ビデオ長と自己改善サイクルの連続反復の両方で改善され、さらなる観察とループ改良により、パフォーマンスをスケールする能力が強調される。
関連論文リスト
- ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting [29.69981069695724]
RGBの出現と動きパラメータの推定により,部分レベルでの同時再構成の課題に対処する。
我々は3次元ガウス表現において、外観情報と幾何学情報の両方を同時に再構成する。
我々はArticulatedGSを紹介した。ArticulatedGSは自己監督型で総合的なフレームワークで、パートレベルで形状や外観を自律的にモデル化する。
論文 参考訳(メタデータ) (2025-03-11T07:56:12Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - 3D Multi-Object Tracking with Differentiable Pose Estimation [0.0]
室内環境におけるRGB-Dシーケンスからの3次元多対象追跡と再構成のための新しい手法を提案する。
我々は、これらの対応を利用してグラフニューラルネットワークに通知し、すべてのオブジェクトの最適かつ時間的に一貫性のある7-DoFポーズトラジェクトリを解決する。
本手法は,既存の最先端手法に比べて,すべてのテストシーケンスに対して蓄積したMOTAスコアを24.8%向上させる。
論文 参考訳(メタデータ) (2022-06-28T06:46:32Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。