Fugu-MT 論文翻訳(概要): 6D Object Pose Tracking in Internet Videos for Robotic Manipulation

論文の概要: 6D Object Pose Tracking in Internet Videos for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2503.10307v1
Date: Thu, 13 Mar 2025 12:33:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.665014
Title: 6D Object Pose Tracking in Internet Videos for Robotic Manipulation
Title（参考訳）: ロボットマニピュレーションのためのインターネットビデオにおける6次元オブジェクトの追跡
Authors: Georgy Ponimatkin, Martin Cífka, Tomáš Souček, Médéric Fourmy, Yann Labbé, Vladimir Petrik, Josef Sivic,
Abstract要約: 本研究では,入力画像中の物体の6次元ポーズを,物体自体の事前の知識を使わずに推定する手法を開発した。インターネットビデオからスムーズな6次元物体軌跡を抽出し,検出された物体をビデオフレーム間で注意深く追跡する。既存のRGB 6Dのポーズ推定手法よりも大幅に改善されていることを示す。
参考スコア（独自算出の注目度）: 20.22297850525832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We seek to extract a temporally consistent 6D pose trajectory of a manipulated object from an Internet instructional video. This is a challenging set-up for current 6D pose estimation methods due to uncontrolled capturing conditions, subtle but dynamic object motions, and the fact that the exact mesh of the manipulated object is not known. To address these challenges, we present the following contributions. First, we develop a new method that estimates the 6D pose of any object in the input image without prior knowledge of the object itself. The method proceeds by (i) retrieving a CAD model similar to the depicted object from a large-scale model database, (ii) 6D aligning the retrieved CAD model with the input image, and (iii) grounding the absolute scale of the object with respect to the scene. Second, we extract smooth 6D object trajectories from Internet videos by carefully tracking the detected objects across video frames. The extracted object trajectories are then retargeted via trajectory optimization into the configuration space of a robotic manipulator. Third, we thoroughly evaluate and ablate our 6D pose estimation method on YCB-V and HOPE-Video datasets as well as a new dataset of instructional videos manually annotated with approximate 6D object trajectories. We demonstrate significant improvements over existing state-of-the-art RGB 6D pose estimation methods. Finally, we show that the 6D object motion estimated from Internet videos can be transferred to a 7-axis robotic manipulator both in a virtual simulator as well as in a real world set-up. We also successfully apply our method to egocentric videos taken from the EPIC-KITCHENS dataset, demonstrating potential for Embodied AI applications.
Abstract（参考訳）: 操作対象の時間的一貫した6次元ポーズ軌跡をインターネットのインストラクショナルビデオから抽出する。これは、制御されていない捕獲条件、微妙だがダイナミックな物体の動き、そして操作された物体の正確なメッシュが分かっていないという事実により、現在の6Dポーズ推定手法の挑戦的なセットアップである。これらの課題に対処するため、以下のコントリビューションを提示します。まず,入力画像中の物体の6次元ポーズを,物体自体の事前の知識なしに推定する手法を提案する。方法が進む一大規模モデルデータベースから図形オブジェクトに似たCADモデルを取得すること。二検索したCADモデルを入力画像と整合させる六次元三現場の絶対規模を画定すること。第2に、検出された物体をビデオフレーム間で注意深く追跡することにより、インターネットビデオからスムーズな6Dオブジェクト軌跡を抽出する。抽出した物体軌道は、軌道最適化によりロボットマニピュレータの構成空間に再ターゲットされる。第3に、YCB-VとHOPE-Videoのデータセットと、近似6Dオブジェクト軌跡を手動でアノテートした命令ビデオの新しいデータセットに基づいて、我々の6Dポーズ推定手法を徹底的に評価し、改善する。既存のRGB 6Dのポーズ推定手法よりも大幅に改善されていることを示す。最後に,インターネットビデオから推定した6次元物体の動きを,仮想シミュレータでも実世界でも7軸ロボットマニピュレータに転送可能であることを示す。また、EPIC-KITCHENSデータセットから得られたエゴセントリックなビデオに対して、この手法をうまく適用し、Embodied AIアプリケーションの可能性を示す。

関連論文リスト

Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。提案手法を5つの挑戦的データセットで評価する。
論文参考訳（メタデータ） (2025-03-24T13:46:21Z)
6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting [7.7145084897748974]
1台のRGB-Dカメラで6Dオブジェクトのポーズを推定・追跡する新しい手法である6DOPE-GSを提案する。その結果,6DOPE-GSはモデルレス同時ポーズトラッキングと再構築のための最先端ベースラインの性能と一致していることがわかった。また,実世界の環境下での動的物体追跡と再構成のための手法の適合性を実証した。
論文参考訳（メタデータ） (2024-12-02T14:32:19Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-19T13:52:18Z)
Imitrob: Imitation Learning Dataset for Training and Evaluating 6D Object Pose Estimators [20.611000416051546]
本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価のためのデータセットを提案する。このデータセットには、9つの異なるツールと12の操作タスクのイメージシーケンスが含まれており、2つのカメラ視点、4人の被写体、そして左右手である。
論文参考訳（メタデータ） (2022-09-16T14:43:46Z)
Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文参考訳（メタデータ） (2022-06-23T16:29:53Z)
Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文参考訳（メタデータ） (2022-04-26T18:00:08Z)
Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文参考訳（メタデータ） (2022-03-07T16:23:47Z)
OVE6D: Object Viewpoint Encoding for Depth-based 6D Object Pose Estimation [12.773040823634908]
単一深度画像と対象物マスクからモデルに基づく6次元オブジェクトのポーズ推定を行うために,OVE6Dと呼ばれる普遍的なフレームワークを提案する。われわれのモデルはShapeNetから生成された純粋に合成されたデータを用いて訓練されており、既存のほとんどの方法とは異なり、微調整なしで新しい現実世界のオブジェクトをうまく一般化する。 OVE6Dは、現実世界のトレーニングデータを用いて、個々のオブジェクトやデータセットに特化して訓練された、現代の深層学習に基づくポーズ推定手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-02T12:51:33Z)
Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文参考訳（メタデータ） (2021-01-05T17:18:52Z)
3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文参考訳（メタデータ） (2020-11-23T08:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。