論文の概要: PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2603.25539v1
- Date: Thu, 26 Mar 2026 15:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.35475
- Title: PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos
- Title(参考訳): PAWS:エゴセントリックビデオによる野生の人工血管の知覚
- Authors: Yihao Wang, Yang Miao, Wenshuai Zhao, Wenyan Yang, Zihan Wang, Joni Pajarinen, Luc Van Gool, Danda Pani Paudel, Juho Kannala, Xi Wang, Arno Solin,
- Abstract要約: 既存の学習ベースの手法は、高品質な3Dデータと手動アノテーションによる教師付きトレーニングに大きく依存している。
そこで本研究では,手動物体間相互作用からオブジェクトの調音を直接抽出する手法であるPAWSを提案する。
提案手法は,HD-EPICやArti4Dを含む公開データセット上で評価し,ベースラインよりも大幅に改善された。
- 参考スコア(独自算出の注目度): 90.4816165292854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulation perception aims to recover the motion and structure of articulated objects (e.g., drawers and cupboards), and is fundamental to 3D scene understanding in robotics, simulation, and animation. Existing learning-based methods rely heavily on supervised training with high-quality 3D data and manual annotations, limiting scalability and diversity. To address this limitation, we propose PAWS, a method that directly extracts object articulations from hand-object interactions in large-scale in-the-wild egocentric videos. We evaluate our method on the public data sets, including HD-EPIC and Arti4D data sets, achieving significant improvements over baselines. We further demonstrate that the extracted articulations benefit downstream tasks, including fine-tuning 3D articulation prediction models and enabling robot manipulation. See the project website at https://aaltoml.github.io/PAWS/.
- Abstract(参考訳): 調音物体(例えば、引き出しやカップボード)の運動と構造を再現することを目的としており、ロボット工学、シミュレーション、アニメーションにおける3Dシーン理解の基礎となっている。
既存の学習ベースの手法は、高品質な3Dデータと手動アノテーションによる教師付きトレーニングに大きく依存しており、スケーラビリティと多様性を制限している。
この制限に対処するため,大規模なイン・ザ・ウィルド・エゴセントリックなビデオにおいて,手動物体間相互作用からオブジェクトの調音を直接抽出する手法であるPAWSを提案する。
提案手法は,HD-EPICやArti4Dを含む公開データセット上で評価し,ベースラインよりも大幅に改善された。
さらに, 抽出した調音は, 微調整による3次元調音予測モデルやロボット操作など, 下流作業に有益であることを示す。
プロジェクトのWebサイトはhttps://aaltoml.github.io/PAWS/にある。
関連論文リスト
- OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer [84.22494391514066]
OCRAはビデオベースのヒューマン・ロボット・アクション転送のためのフレームワークである。
人間のデモビデオから直接学習し、堅牢な操作を可能にする。
論文 参考訳(メタデータ) (2026-03-15T14:31:03Z) - Developing Vision-Language-Action Model from Egocentric Videos [14.1517430035289]
エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
このようなビデオを利用してロボットのポリシーを訓練する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
本研究では,エゴセントリックビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-09-26T07:09:33Z) - Articulated Object Estimation in the Wild [25.616481887384708]
ArtiPointは、動的カメラモーションと部分観測可能性の下で、明瞭なオブジェクトモデルを推論できる新しい推定フレームワークである。
ディープポイントトラッキングと因子グラフ最適化フレームワークを組み合わせることで、ArtiPointは生のRGB-Dビデオから直接、調音部分軌跡と調音軸を強く推定する。
ArtiPointを古典的および学習ベースのベースラインに対してベンチマークし、Arti4Dで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-09-01T18:34:17Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。