論文の概要: Collaborative Weakly Supervised Video Correlation Learning for
Procedure-Aware Instructional Video Analysis
- arxiv url: http://arxiv.org/abs/2312.11024v1
- Date: Mon, 18 Dec 2023 08:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:39:32.849956
- Title: Collaborative Weakly Supervised Video Correlation Learning for
Procedure-Aware Instructional Video Analysis
- Title(参考訳): プロシージャ・アウェア・インストラクショナル・ビデオ分析のための協調的弱視映像相関学習
- Authors: Tianyao He, Huabin Liu, Yuxi Li, Xiao Ma, Cheng Zhong, Yang Zhang,
Weiyao Lin
- Abstract要約: 本稿では,指導ビデオにおけるプロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。
私たちのフレームワークは、協調的なステップマイニングとフレーム・ツー・ステップアライメントという、2つのコアモジュールで構成されています。
我々は,我々のフレームワークを,シーケンス検証と行動品質評価という,2つの異なる指導ビデオタスクでインスタンス化する。
- 参考スコア(独自算出の注目度): 31.541911711448318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Correlation Learning (VCL), which aims to analyze the relationships
between videos, has been widely studied and applied in various general video
tasks. However, applying VCL to instructional videos is still quite challenging
due to their intrinsic procedural temporal structure. Specifically, procedural
knowledge is critical for accurate correlation analyses on instructional
videos. Nevertheless, current procedure-learning methods heavily rely on
step-level annotations, which are costly and not scalable. To address this
problem, we introduce a weakly supervised framework called Collaborative
Procedure Alignment (CPA) for procedure-aware correlation learning on
instructional videos. Our framework comprises two core modules: collaborative
step mining and frame-to-step alignment. The collaborative step mining module
enables simultaneous and consistent step segmentation for paired videos,
leveraging the semantic and temporal similarity between frames. Based on the
identified steps, the frame-to-step alignment module performs alignment between
the frames and steps across videos. The alignment result serves as a
measurement of the correlation distance between two videos. We instantiate our
framework in two distinct instructional video tasks: sequence verification and
action quality assessment. Extensive experiments validate the effectiveness of
our approach in providing accurate and interpretable correlation analyses for
instructional videos.
- Abstract(参考訳): ビデオ間の関係を分析することを目的としたビデオ相関学習(VCL)は,様々な一般的なビデオタスクにおいて広く研究され,適用されてきた。
しかし,本質的な手続き時間構造のため,vclを授業映像に適用することは依然として困難である。
特に,授業ビデオの正確な相関分析には手続き的知識が重要である。
しかし、現在の手順学習手法は、コストが高くスケーラブルではないステップレベルのアノテーションに大きく依存している。
そこで本研究では,CPA (Collaborative procedure Alignment) と呼ばれる,プロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。
私たちのフレームワークは2つのコアモジュールで構成されています。
協調ステップマイニングモジュールは、フレーム間の意味的および時間的類似性を利用して、ペアビデオの同時かつ一貫したステップセグメンテーションを可能にする。
特定されたステップに基づいて、フレーム間アライメントモジュールは、フレームとビデオ間のアライメントを実行する。
アライメント結果は、2つのビデオ間の相関距離の測定として機能する。
我々は,我々のフレームワークを,シーケンス検証と行動品質評価という2つの異なる指導ビデオタスクでインスタンス化する。
広範な実験により,本手法の有効性を検証し,授業映像の正確かつ解釈可能な相関分析を行った。
関連論文リスト
- Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Weakly-Supervised Online Action Segmentation in Multi-View Instructional
Videos [20.619236432228625]
動的プログラミングを用いて,オンラインストリーミングビデオをテスト時にセグメント化するためのフレームワークを提案する。
オンライン・オフライン離散損失(OODL)を導入し、セグメンテーション結果の時間的整合性を高めることにより、我々の枠組みを改善する。
論文 参考訳(メタデータ) (2022-03-24T19:27:56Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。