論文の概要: Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
- arxiv url: http://arxiv.org/abs/2303.13800v2
- Date: Mon, 27 Mar 2023 05:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:47:54.464636
- Title: Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
- Title(参考訳): ビデオデモへのステップバイステップインストラクショナルダイアグラムの適応
- Authors: Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian
Rodriguez, Stephen Gould
- Abstract要約: 組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 50.84066456501225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal alignment facilitates the retrieval of instances from one modality
when queried using another. In this paper, we consider a novel setting where
such an alignment is between (i) instruction steps that are depicted as
assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video
segments from in-the-wild videos; these videos comprising an enactment of the
assembly actions in the real world. To learn this alignment, we introduce a
novel supervised contrastive learning method that learns to align videos with
the subtle details in the assembly diagrams, guided by a set of novel losses.
To study this problem and demonstrate the effectiveness of our method, we
introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183
hours of videos from diverse furniture assembly collections and nearly 8,300
illustrations from their associated instruction manuals and annotated for their
ground truth alignments. We define two tasks on this dataset: First, nearest
neighbor retrieval between video segments and illustrations, and, second,
alignment of instruction steps and the segments for each video. Extensive
experiments on IAW demonstrate superior performances of our approach against
alternatives.
- Abstract(参考訳): マルチモーダルアライメントは、あるモダリティから別のモダリティを使ってクエリする際のインスタンスの検索を容易にする。
本稿では,このようなアライメントが中間にある新しい設定を考える。
(i)組み立て図(イケアの組立マニュアルによく見られる)として表される指示ステップ、及び
(ii)内装ビデオの映像セグメント(実世界の組立動作の制定を含む。)
このアライメントを学習するために,新しい教師付きコントラスト学習手法を導入する。
そこで本研究では,本手法の有効性を実証するために,多様な家具組立コレクションからの183時間のビデオと,関連する指導マニュアルからの8,300点近いイラストと,それらの真実のアライメントに注釈を付したイケア組立用IAWを提案する。
第1に,ビデオセグメントとイラストレーション間の最寄りの隣接検索,第2に,各ビデオの指示ステップとセグメントのアラインメント,という2つのタスクを定義した。
iawに関する広範な実験は、代替案に対する我々のアプローチの優れた性能を示している。
関連論文リスト
- Collaborative Weakly Supervised Video Correlation Learning for
Procedure-Aware Instructional Video Analysis [31.541911711448318]
本稿では,指導ビデオにおけるプロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。
私たちのフレームワークは、協調的なステップマイニングとフレーム・ツー・ステップアライメントという、2つのコアモジュールで構成されています。
我々は,我々のフレームワークを,シーケンス検証と行動品質評価という,2つの異なる指導ビデオタスクでインスタンス化する。
論文 参考訳(メタデータ) (2023-12-18T08:57:10Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
結果の時系列は、Diagonalized Dynamic Time Warping(DDTW)と呼ばれる動的時間ワープの新しいバージョンを使用して、同じアクションのビデオのアライメントに使用される。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Weakly-Supervised Online Action Segmentation in Multi-View Instructional
Videos [20.619236432228625]
動的プログラミングを用いて,オンラインストリーミングビデオをテスト時にセグメント化するためのフレームワークを提案する。
オンライン・オフライン離散損失(OODL)を導入し、セグメンテーション結果の時間的整合性を高めることにより、我々の枠組みを改善する。
論文 参考訳(メタデータ) (2022-03-24T19:27:56Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Multimodal Pretraining for Dense Video Captioning [26.39052753539932]
我々は、新しい高密度ビデオキャプションデータセット、ビデオタイムラインタグ(ViTT)を構築し、リリースする。
ビデオとキャプションのようなテキストの巨大な教師なしデータセットを活用するマルチモーダルシーケンス・ツー・シーケンス事前学習戦略について検討する。
このようなモデルは多種多様な指導ビデオに対してよく一般化され、堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-10T21:49:14Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。