論文の概要: IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos
- arxiv url: http://arxiv.org/abs/2411.11409v1
- Date: Mon, 18 Nov 2024 09:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:13.557886
- Title: IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos
- Title(参考訳): IKEAの職場マニュアル:インターネットビデオによる4次元組み立て指導
- Authors: Yunong Liu, Cristobal Eyzaguirre, Manling Li, Shubh Khanna, Juan Carlos Niebles, Vineeth Ravi, Saumitra Mishra, Weiyu Liu, Jiajun Wu,
- Abstract要約: IKEA Video Manualsは、家具部品の3次元モデル、指導マニュアル、インターネットからの組み立てビデオ、そして最も重要なのは、これらのデータモダリティ間の密集時間アライメントのアノテーションを含むデータセットである。
形態形成に不可欠な5つの応用として, 組み立て計画生成, 部分条件付きセグメンテーション, 部分条件付きポーズ推定, ビデオオブジェクトセグメンテーション, および教示ビデオマニュアルに基づく家具組み立てについて述べる。
- 参考スコア(独自算出の注目度): 34.67148665646724
- License:
- Abstract: Shape assembly is a ubiquitous task in daily life, integral for constructing complex 3D structures like IKEA furniture. While significant progress has been made in developing autonomous agents for shape assembly, existing datasets have not yet tackled the 4D grounding of assembly instructions in videos, essential for a holistic understanding of assembly in 3D space over time. We introduce IKEA Video Manuals, a dataset that features 3D models of furniture parts, instructional manuals, assembly videos from the Internet, and most importantly, annotations of dense spatio-temporal alignments between these data modalities. To demonstrate the utility of IKEA Video Manuals, we present five applications essential for shape assembly: assembly plan generation, part-conditioned segmentation, part-conditioned pose estimation, video object segmentation, and furniture assembly based on instructional video manuals. For each application, we provide evaluation metrics and baseline methods. Through experiments on our annotated data, we highlight many challenges in grounding assembly instructions in videos to improve shape assembly, including handling occlusions, varying viewpoints, and extended assembly sequences.
- Abstract(参考訳): 形状組み立ては日常生活におけるユビキタスな作業であり、IKEA家具のような複雑な3D構造の構築に不可欠である。
形状形成のための自律エージェントの開発には大きな進歩があったが、既存のデータセットはまだビデオ内の組立命令の4Dグラウンドに取り組んでおらず、時間の経過とともに3D空間における組立の全体的理解に不可欠である。
IKEA Video Manualsは、家具部品の3次元モデル、指導マニュアル、インターネットからの組み立てビデオ、そして最も重要なのは、これらのデータモダリティ間の高密度な時空間アライメントのアノテーションを含むデータセットである。
IKEAビデオマニュアルの実用性を実証するためには, 組立計画生成, 部分条件付きセグメンテーション, 部分条件付きポーズ推定, ビデオオブジェクトセグメンテーション, および指導ビデオマニュアルに基づく家具組み立ての5つのアプリケーションを提案する。
各アプリケーションに対して、評価指標とベースラインメソッドを提供します。
アノテーション付きデータを用いた実験を通じて,ビデオ中の組立命令を基底にして,オクルージョンの扱い,視点の変化,組立シーケンスの拡張など,形状の組立を改善する上で多くの課題が浮き彫りにされている。
関連論文リスト
- Multi-3D-Models Registration-Based Augmented Reality (AR) Instructions
for Assembly [7.716174636585781]
BRICKxAR (M3D)は、物理アセンブリモデルの組み立て位置でレンダリングされた3Dアセンブリ部品を可視化する。
BRICKxAR (M3D) はディープラーニングで訓練された3Dモデルの登録を利用する。
論文 参考訳(メタデータ) (2023-11-27T21:53:17Z) - HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly
Knowledge Understanding [5.233797258148846]
HA-ViDは、代表的な産業組み立てシナリオを特徴とする、最初のヒューマンアセンブリビデオデータセットである。
我々は,3222のマルチビュー,マルチモダリティビデオ(各ビデオは1つの組立タスクを含む),1.5Mフレーム,96K時間ラベル,2M空間ラベルを提供する。
我々は、アクション認識、アクションセグメンテーション、オブジェクト検出、マルチオブジェクトトラッキングの4つの基本的なビデオ理解タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-07-09T08:44:46Z) - Aligning Step-by-Step Instructional Diagrams to Video Demonstrations [51.67930509196712]
組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-03-24T04:45:45Z) - IKEA-Manual: Seeing Shape Assembly Step by Step [26.79113677450921]
組立マニュアルと組み合わせた102個のIKEAオブジェクトからなるデータセットであるIKEA-Manualを提案する。
IKEAオブジェクトやアセンブリマニュアルには,組み立て部品,組み立て計画,手動セグメンテーション,3Dパーツと視覚マニュアル間の2D-3D対応など,詳細なアノテーションが提供されている。
論文 参考訳(メタデータ) (2023-02-03T17:32:22Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - Reconstructing and grounding narrated instructional videos in 3D [99.22297066405741]
このようなオブジェクトを再構築し、関連するナレーションを3Dでローカライズすることを目的としている。
本稿では,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。
自動車メンテナンス分野におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-09T16:49:10Z) - SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data [124.2624568006391]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文 参考訳(メタデータ) (2021-05-18T15:42:37Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。