論文の概要: PAOLI: Pose-free Articulated Object Learning from Sparse-view Images
- arxiv url: http://arxiv.org/abs/2509.04276v1
- Date: Thu, 04 Sep 2025 14:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.193397
- Title: PAOLI: Pose-free Articulated Object Learning from Sparse-view Images
- Title(参考訳): PAOLI:スパースビュー画像による無作為な人工物体学習
- Authors: Jianning Deng, Kartic Subr, Hakan Bilen,
- Abstract要約: 本稿では,スパースビュー,アンポーズ画像から明瞭なオブジェクト表現を学習するための新しいフレームワークを提案する。
当社のアプローチは1音節あたり4ビューで運用されており、カメラの監視は行いません。
- 参考スコア(独自算出の注目度): 27.16160315662701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel self-supervised framework for learning articulated object representations from sparse-view, unposed images. Unlike prior methods that require dense multi-view observations and ground-truth camera poses, our approach operates with as few as four views per articulation and no camera supervision. To address the inherent challenges, we first reconstruct each articulation independently using recent advances in sparse-view 3D reconstruction, then learn a deformation field that establishes dense correspondences across poses. A progressive disentanglement strategy further separates static from moving parts, enabling robust separation of camera and object motion. Finally, we jointly optimize geometry, appearance, and kinematics with a self-supervised loss that enforces cross-view and cross-pose consistency. Experiments on the standard benchmark and real-world examples demonstrate that our method produces accurate and detailed articulated object representations under significantly weaker input assumptions than existing approaches.
- Abstract(参考訳): スパース・ビュー・アンポーズ画像から音声によるオブジェクト表現を学習するための,新しい自己教師型フレームワークを提案する。
より密集した多視点観察や地平カメラのポーズを必要とする従来の手法とは異なり、我々の手法は1音節あたり4ビューまでしか機能せず、カメラの監督も不要である。
これらの課題に対処するために,我々はまず近年のスパースビュー3次元再構成の進歩を利用して各調音を独立に再構成し,ポーズ間の密接な対応を確立する変形場を学習する。
プログレッシブ・アンタングルメント戦略は、静止部と可動部をさらに分離し、カメラと物体の動きの堅牢な分離を可能にする。
最後に,図形,外観,キネマティクスを自己監督的損失で協調的に最適化し,クロスビューとクロスポジション整合性を実現する。
標準ベンチマークと実世界の実例による実験により,提案手法は既存手法よりもはるかに弱い入力仮定の下で,正確かつ詳細なオブジェクト表現を生成することが示された。
関連論文リスト
- Subjective Camera 0.1: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion [8.477506348193]
物理的カメラが捉えられない意味のある瞬間を再構成する主観カメラの概念を導入する。
本稿では、現実のシーンを、アクセスしやすい主観的読み出しから再構築するためのフレームワークである主観カメラ0.1を提案する。
提案手法は,大規模なペアリングトレーニングデータを避け,一般化問題を緩和する。
論文 参考訳(メタデータ) (2025-06-30T10:36:49Z) - Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。