論文の概要: Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
- arxiv url: http://arxiv.org/abs/2303.13800v3
- Date: Fri, 15 Mar 2024 03:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:51:44.765752
- Title: Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
- Title(参考訳): ビデオデモへのステップバイステップインストラクショナルダイアグラムの適応
- Authors: Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould,
- Abstract要約: 組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 51.67930509196712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal alignment facilitates the retrieval of instances from one modality when queried using another. In this paper, we consider a novel setting where such an alignment is between (i) instruction steps that are depicted as assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video segments from in-the-wild videos; these videos comprising an enactment of the assembly actions in the real world. To learn this alignment, we introduce a novel supervised contrastive learning method that learns to align videos with the subtle details in the assembly diagrams, guided by a set of novel losses. To study this problem and demonstrate the effectiveness of our method, we introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183 hours of videos from diverse furniture assembly collections and nearly 8,300 illustrations from their associated instruction manuals and annotated for their ground truth alignments. We define two tasks on this dataset: First, nearest neighbor retrieval between video segments and illustrations, and, second, alignment of instruction steps and the segments for each video. Extensive experiments on IAW demonstrate superior performances of our approach against alternatives.
- Abstract(参考訳): マルチモーダルアライメントは、あるモダリティから別のモダリティを使ってクエリする際のインスタンスの検索を容易にする。
本稿では,このようなアライメントを両立させる新しい環境について考察する。
一 組立図(池田組立マニュアルによく見られる)、及び
(II)このビデオは,実世界の組み立て動作を再現した映像である。
このアライメントを学習するために,新しい教師付きコントラスト学習手法を導入する。
本手法の有効性を検証し,本手法の有効性を示すために,多様な家具組立コレクションから183時間分の映像と関連する指導マニュアルから8,300点近いイラストを収録した野生のイケア組立用IAWと,それらの真実のアライメントに注釈を付したアノテートを用いた新しいデータセットを提案する。
このデータセットでは、まず、ビデオセグメントとイラストの隣り合う検索と、命令ステップと各ビデオのセグメントのアライメントという2つのタスクを定義している。
IAWに関する大規模な実験は、代替案に対する我々のアプローチの優れた性能を示す。
関連論文リスト
- IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos [34.67148665646724]
IKEA Video Manualsは、家具部品の3次元モデル、指導マニュアル、インターネットからの組み立てビデオ、そして最も重要なのは、これらのデータモダリティ間の密集時間アライメントのアノテーションを含むデータセットである。
形態形成に不可欠な5つの応用として, 組み立て計画生成, 部分条件付きセグメンテーション, 部分条件付きポーズ推定, ビデオオブジェクトセグメンテーション, および教示ビデオマニュアルに基づく家具組み立てについて述べる。
論文 参考訳(メタデータ) (2024-11-18T09:30:05Z) - Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - Collaborative Weakly Supervised Video Correlation Learning for
Procedure-Aware Instructional Video Analysis [31.541911711448318]
本稿では,指導ビデオにおけるプロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。
私たちのフレームワークは、協調的なステップマイニングとフレーム・ツー・ステップアライメントという、2つのコアモジュールで構成されています。
我々は,我々のフレームワークを,シーケンス検証と行動品質評価という,2つの異なる指導ビデオタスクでインスタンス化する。
論文 参考訳(メタデータ) (2023-12-18T08:57:10Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Multimodal Pretraining for Dense Video Captioning [26.39052753539932]
我々は、新しい高密度ビデオキャプションデータセット、ビデオタイムラインタグ(ViTT)を構築し、リリースする。
ビデオとキャプションのようなテキストの巨大な教師なしデータセットを活用するマルチモーダルシーケンス・ツー・シーケンス事前学習戦略について検討する。
このようなモデルは多種多様な指導ビデオに対してよく一般化され、堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-10T21:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。