論文の概要: IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos
- arxiv url: http://arxiv.org/abs/2411.11409v1
- Date: Mon, 18 Nov 2024 09:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:13.557886
- Title: IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos
- Title(参考訳): IKEAの職場マニュアル:インターネットビデオによる4次元組み立て指導
- Authors: Yunong Liu, Cristobal Eyzaguirre, Manling Li, Shubh Khanna, Juan Carlos Niebles, Vineeth Ravi, Saumitra Mishra, Weiyu Liu, Jiajun Wu,
- Abstract要約: IKEA Video Manualsは、家具部品の3次元モデル、指導マニュアル、インターネットからの組み立てビデオ、そして最も重要なのは、これらのデータモダリティ間の密集時間アライメントのアノテーションを含むデータセットである。
形態形成に不可欠な5つの応用として, 組み立て計画生成, 部分条件付きセグメンテーション, 部分条件付きポーズ推定, ビデオオブジェクトセグメンテーション, および教示ビデオマニュアルに基づく家具組み立てについて述べる。
- 参考スコア(独自算出の注目度): 34.67148665646724
- License:
- Abstract: Shape assembly is a ubiquitous task in daily life, integral for constructing complex 3D structures like IKEA furniture. While significant progress has been made in developing autonomous agents for shape assembly, existing datasets have not yet tackled the 4D grounding of assembly instructions in videos, essential for a holistic understanding of assembly in 3D space over time. We introduce IKEA Video Manuals, a dataset that features 3D models of furniture parts, instructional manuals, assembly videos from the Internet, and most importantly, annotations of dense spatio-temporal alignments between these data modalities. To demonstrate the utility of IKEA Video Manuals, we present five applications essential for shape assembly: assembly plan generation, part-conditioned segmentation, part-conditioned pose estimation, video object segmentation, and furniture assembly based on instructional video manuals. For each application, we provide evaluation metrics and baseline methods. Through experiments on our annotated data, we highlight many challenges in grounding assembly instructions in videos to improve shape assembly, including handling occlusions, varying viewpoints, and extended assembly sequences.
- Abstract(参考訳): 形状組み立ては日常生活におけるユビキタスな作業であり、IKEA家具のような複雑な3D構造の構築に不可欠である。
形状形成のための自律エージェントの開発には大きな進歩があったが、既存のデータセットはまだビデオ内の組立命令の4Dグラウンドに取り組んでおらず、時間の経過とともに3D空間における組立の全体的理解に不可欠である。
IKEA Video Manualsは、家具部品の3次元モデル、指導マニュアル、インターネットからの組み立てビデオ、そして最も重要なのは、これらのデータモダリティ間の高密度な時空間アライメントのアノテーションを含むデータセットである。
IKEAビデオマニュアルの実用性を実証するためには, 組立計画生成, 部分条件付きセグメンテーション, 部分条件付きポーズ推定, ビデオオブジェクトセグメンテーション, および指導ビデオマニュアルに基づく家具組み立ての5つのアプリケーションを提案する。
各アプリケーションに対して、評価指標とベースラインメソッドを提供します。
アノテーション付きデータを用いた実験を通じて,ビデオ中の組立命令を基底にして,オクルージョンの扱い,視点の変化,組立シーケンスの拡張など,形状の組立を改善する上で多くの課題が浮き彫りにされている。
関連論文リスト
- Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Manual-PA: Learning 3D Part Assembly from Instruction Diagrams [54.555154845137906]
本稿では,手動誘導3次元部品組立フレームワークである手動PAについて述べる。
以上の結果から, 部品の図面と順序を併用すると, 組立性能が向上し, 組立性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-27T03:10:29Z) - Multi-3D-Models Registration-Based Augmented Reality (AR) Instructions
for Assembly [7.716174636585781]
BRICKxAR (M3D)は、物理アセンブリモデルの組み立て位置でレンダリングされた3Dアセンブリ部品を可視化する。
BRICKxAR (M3D) はディープラーニングで訓練された3Dモデルの登録を利用する。
論文 参考訳(メタデータ) (2023-11-27T21:53:17Z) - HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly
Knowledge Understanding [5.233797258148846]
HA-ViDは、代表的な産業組み立てシナリオを特徴とする、最初のヒューマンアセンブリビデオデータセットである。
我々は,3222のマルチビュー,マルチモダリティビデオ(各ビデオは1つの組立タスクを含む),1.5Mフレーム,96K時間ラベル,2M空間ラベルを提供する。
我々は、アクション認識、アクションセグメンテーション、オブジェクト検出、マルチオブジェクトトラッキングの4つの基本的なビデオ理解タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-07-09T08:44:46Z) - Aligning Step-by-Step Instructional Diagrams to Video Demonstrations [51.67930509196712]
組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-03-24T04:45:45Z) - IKEA-Manual: Seeing Shape Assembly Step by Step [26.79113677450921]
組立マニュアルと組み合わせた102個のIKEAオブジェクトからなるデータセットであるIKEA-Manualを提案する。
IKEAオブジェクトやアセンブリマニュアルには,組み立て部品,組み立て計画,手動セグメンテーション,3Dパーツと視覚マニュアル間の2D-3D対応など,詳細なアノテーションが提供されている。
論文 参考訳(メタデータ) (2023-02-03T17:32:22Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。