論文の概要: Temporal Alignment Networks for Long-term Video
- arxiv url: http://arxiv.org/abs/2204.02968v1
- Date: Wed, 6 Apr 2022 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:03:11.971001
- Title: Temporal Alignment Networks for Long-term Video
- Title(参考訳): 長期ビデオのための時間アライメントネットワーク
- Authors: Tengda Han, Weidi Xie, Andrew Zisserman
- Abstract要約: 本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
- 参考スコア(独自算出の注目度): 103.69904379356413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is a temporal alignment network that ingests long
term video sequences, and associated text sentences, in order to: (1) determine
if a sentence is alignable with the video; and (2) if it is alignable, then
determine its alignment. The challenge is to train such networks from
large-scale datasets, such as HowTo100M, where the associated text sentences
have significant noise, and are only weakly aligned when relevant. Apart from
proposing the alignment network, we also make four contributions: (i) we
describe a novel co-training method that enables to denoise and train on raw
instructional videos without using manual annotation, despite the considerable
noise; (ii) to benchmark the alignment performance, we manually curate a
10-hour subset of HowTo100M, totalling 80 videos, with sparse temporal
descriptions. Our proposed model, trained on HowTo100M, outperforms strong
baselines (CLIP, MIL-NCE) on this alignment dataset by a significant margin;
(iii) we apply the trained model in the zero-shot settings to multiple
downstream video understanding tasks and achieve state-of-the-art results,
including text-video retrieval on YouCook2, and weakly supervised video action
segmentation on Breakfast-Action; (iv) we use the automatically aligned
HowTo100M annotations for end-to-end finetuning of the backbone model, and
obtain improved performance on downstream action recognition tasks.
- Abstract(参考訳): 本研究の目的は,(1)文が映像と整合可能かどうかを判断し,(2)適合可能かどうかを判断し,その系列を決定するために,長期映像系列と関連するテキスト文を取り込む時間的アライメントネットワークである。
問題なのは、howto100mのような大規模データセットからそのようなネットワークをトレーニングすることだ。
アライメントネットワークの提案とは別に,4つのコントリビューションも行っています。
i) かなりのノイズにもかかわらず手動のアノテーションを使わずに生のビデオの発音と訓練を可能にする新しい協調学習手法について述べる。
(i)アライメント性能のベンチマークを行うため,ハウト100Mの10時間サブセットを手作業でキュレートし,80本のビデオと短い時間的記述を行った。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上で強いベースライン(CLIP, MIL-NCE)をかなりのマージンで上回っている。
3) 訓練されたモデルをゼロショット設定に適用し、複数の下流映像理解タスクに適用し、YouCook2のテキストビデオ検索やBreakfast-Actionの弱教師付きビデオアクションセグメンテーションを含む最先端の成果を得る。
(iv) バックボーンモデルのエンド・ツー・エンドの微調整に自動整列するHowTo100Mアノテーションを使用し、下流動作認識タスクの性能向上を図る。
関連論文リスト
- Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Self-supervised Video Representation Learning by Context and Motion
Decoupling [45.510042484456854]
自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
論文 参考訳(メタデータ) (2021-04-02T02:47:34Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。