論文の概要: Articulated Object Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2509.01708v1
- Date: Mon, 01 Sep 2025 18:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.8205
- Title: Articulated Object Estimation in the Wild
- Title(参考訳): 野生における人工物体の推定
- Authors: Abdelrhman Werby, Martin Büchner, Adrian Röfer, Chenguang Huang, Wolfram Burgard, Abhinav Valada,
- Abstract要約: ArtiPointは、動的カメラモーションと部分観測可能性の下で、明瞭なオブジェクトモデルを推論できる新しい推定フレームワークである。
ディープポイントトラッキングと因子グラフ最適化フレームワークを組み合わせることで、ArtiPointは生のRGB-Dビデオから直接、調音部分軌跡と調音軸を強く推定する。
ArtiPointを古典的および学習ベースのベースラインに対してベンチマークし、Arti4Dで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 25.616481887384708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the 3D motion of articulated objects is essential in robotic scene understanding, mobile manipulation, and motion planning. Prior methods for articulation estimation have primarily focused on controlled settings, assuming either fixed camera viewpoints or direct observations of various object states, which tend to fail in more realistic unconstrained environments. In contrast, humans effortlessly infer articulation by watching others manipulate objects. Inspired by this, we introduce ArtiPoint, a novel estimation framework that can infer articulated object models under dynamic camera motion and partial observability. By combining deep point tracking with a factor graph optimization framework, ArtiPoint robustly estimates articulated part trajectories and articulation axes directly from raw RGB-D videos. To foster future research in this domain, we introduce Arti4D, the first ego-centric in-the-wild dataset that captures articulated object interactions at a scene level, accompanied by articulation labels and ground-truth camera poses. We benchmark ArtiPoint against a range of classical and learning-based baselines, demonstrating its superior performance on Arti4D. We make code and Arti4D publicly available at https://artipoint.cs.uni-freiburg.de.
- Abstract(参考訳): ロボットシーン理解,移動操作,移動計画において,3次元物体の3次元動作を理解することが不可欠である。
従来は、固定されたカメラ視点か、より現実的な制約のない環境で失敗する様々な物体状態の直接観察のいずれかを想定して、制御された設定に重点を置いていた。
対照的に、人間は他人が物体を操作するのを見ることによって、力ずくで調音を推測する。
そこで本研究では,動的カメラ動作と部分可観測性の下で,明瞭なオブジェクトモデルを推論できる新しい推定フレームワークであるArtiPointを紹介した。
ディープポイントトラッキングと因子グラフ最適化フレームワークを組み合わせることで、ArtiPointは生のRGB-Dビデオから直接、調音部分軌跡と調音軸を強く推定する。
この領域における今後の研究を促進するために,我々は,シーンレベルでのオブジェクトの対話をキャプチャする最初のエゴ中心のインザワイルドデータセットであるArti4Dを紹介した。
ArtiPointを古典的および学習ベースのベースラインに対してベンチマークし、Arti4Dで優れたパフォーマンスを示す。
コードとArti4Dをhttps://artipoint.cs.uni-freiburg.deで公開しています。
関連論文リスト
- 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera [40.817960406002506]
本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
論文 参考訳(メタデータ) (2023-03-29T06:23:44Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。