論文の概要: Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment
- arxiv url: http://arxiv.org/abs/2409.16145v1
- Date: Sun, 22 Sep 2024 18:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:27:07.050733
- Title: Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment
- Title(参考訳): LLMを用いたマルチパス・テキスト・ビデオアライメントによる授業映像中の行動の局所化学習
- Authors: Yuxiao Chen, Kai Li, Wentao Bao, Deep Patel, Yu Kong, Martin Renqiang Min, Dimitris N. Metaxas,
- Abstract要約: 本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
- 参考スコア(独自算出の注目度): 53.12952107996463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to localize temporal boundaries of procedure steps in instructional videos is challenging due to the limited availability of annotated large-scale training videos. Recent works focus on learning the cross-modal alignment between video segments and ASR-transcripted narration texts through contrastive learning. However, these methods fail to account for the alignment noise, i.e., irrelevant narrations to the instructional task in videos and unreliable timestamps in narrations. To address these challenges, this work proposes a novel training framework. Motivated by the strong capabilities of Large Language Models (LLMs) in procedure understanding and text summarization, we first apply an LLM to filter out task-irrelevant information and summarize task-related procedure steps (LLM-steps) from narrations. To further generate reliable pseudo-matching between the LLM-steps and the video for training, we propose the Multi-Pathway Text-Video Alignment (MPTVA) strategy. The key idea is to measure alignment between LLM-steps and videos via multiple pathways, including: (1) step-narration-video alignment using narration timestamps, (2) direct step-to-video alignment based on their long-term semantic similarity, and (3) direct step-to-video alignment focusing on short-term fine-grained semantic similarity learned from general video domains. The results from different pathways are fused to generate reliable pseudo step-video matching. We conducted extensive experiments across various tasks and problem settings to evaluate our proposed method. Our approach surpasses state-of-the-art methods in three downstream tasks: procedure step grounding, step localization, and narration grounding by 5.9\%, 3.1\%, and 2.8\%.
- Abstract(参考訳): 注釈付き大規模トレーニングビデオの可用性が限られているため,プロシージャステップの時間的境界のローカライズは困難である。
最近の研究は、コントラスト学習を通じてビデオセグメントとASRで書き起こされたナレーションテキスト間の相互アライメントを学習することに焦点を当てている。
しかし、これらの手法はアライメントノイズ、すなわちビデオの教示課題とナレーションの信頼性の低いタイムスタンプに無関係なナレーションを考慮できない。
これらの課題に対処するため、本研究では、新しいトレーニングフレームワークを提案する。
手順理解とテキスト要約におけるLLM(Large Language Models)の強みを生かして,まずLLMを適用し,課題関連情報をフィルタリングし,課題関連手順(LLM-steps)をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
1)ナレーションタイムスタンプを用いたステップナレーション・ビデオアライメント,(2)長期のセマンティックな類似性に基づく直接ステップ・ツー・ビデオアライメント,(3)一般的なビデオドメインから学んだ短期的な微粒なセマンティックな類似性に焦点を当てた直接ステップ・ツー・ビデオアライメントなどである。
異なる経路からの結果は融合し、信頼できる擬似ステップビデオマッチングを生成する。
提案手法を評価するため,様々なタスクや問題設定について広範な実験を行った。
提案手法は, 3 つの下流タスクにおいて, 手順ステップグラウンド, ステップローカライゼーション, ナレーショングラウンドリングの5.9 %, 3.1 %, 2.8 % の最先端手法を超える。
関連論文リスト
- Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - Collaborative Weakly Supervised Video Correlation Learning for
Procedure-Aware Instructional Video Analysis [31.541911711448318]
本稿では,指導ビデオにおけるプロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。
私たちのフレームワークは、協調的なステップマイニングとフレーム・ツー・ステップアライメントという、2つのコアモジュールで構成されています。
我々は,我々のフレームワークを,シーケンス検証と行動品質評価という,2つの異なる指導ビデオタスクでインスタンス化する。
論文 参考訳(メタデータ) (2023-12-18T08:57:10Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。