論文の概要: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild
- arxiv url: http://arxiv.org/abs/2412.00811v1
- Date: Sun, 01 Dec 2024 13:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:40.057578
- Title: Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild
- Title(参考訳): Vid-Morp: 野生の未ラベルビデオからビデオモーメントの検索
- Authors: Peijun Bao, Chenqi Kong, Zihao Shao, Boon Poh Ng, Meng Hwa Er, Alex C. Kot,
- Abstract要約: 本稿では,アノテーションのコスト削減のための新しいパラダイムを提案する。
不完全な疑似アノテーションの直接事前学習は、不一致の文-ビデオペアや不正確な時間境界など、重大な課題を呈する。
本稿では,セマンティックス誘導の洗練とメモリ・コンセンサス補正の2つの相からなるReCorrectアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 30.99346916414286
- License:
- Abstract: Given a natural language query, video moment retrieval aims to localize the described temporal moment in an untrimmed video. A major challenge of this task is its heavy dependence on labor-intensive annotations for training. Unlike existing works that directly train models on manually curated data, we propose a novel paradigm to reduce annotation costs: pretraining the model on unlabeled, real-world videos. To support this, we introduce Video Moment Retrieval Pretraining (Vid-Morp), a large-scale dataset collected with minimal human intervention, consisting of over 50K videos captured in the wild and 200K pseudo annotations. Direct pretraining on these imperfect pseudo annotations, however, presents significant challenges, including mismatched sentence-video pairs and imprecise temporal boundaries. To address these issues, we propose the ReCorrect algorithm, which comprises two main phases: semantics-guided refinement and memory-consensus correction. The semantics-guided refinement enhances the pseudo labels by leveraging semantic similarity with video frames to clean out unpaired data and make initial adjustments to temporal boundaries. In the following memory-consensus correction phase, a memory bank tracks the model predictions, progressively correcting the temporal boundaries based on consensus within the memory. Comprehensive experiments demonstrate ReCorrect's strong generalization abilities across multiple downstream settings. Zero-shot ReCorrect achieves over 75% and 80% of the best fully-supervised performance on two benchmarks, while unsupervised ReCorrect reaches about 85% on both. The code, dataset, and pretrained models are available at https://github.com/baopj/Vid-Morp.
- Abstract(参考訳): 自然言語クエリーが与えられた場合、ビデオモーメント検索は、記述された時間モーメントを、トリミングされていないビデオにローカライズすることを目的としている。
このタスクの大きな課題は、トレーニングのための労働集約的なアノテーションに大きく依存することである。
手動でキュレートされたデータ上でモデルをトレーニングする既存の作業とは異なり、アノテーションコストを削減するための新しいパラダイムを提案します。
これをサポートするために,ビデオモーメント検索事前トレーニング(Vid-Morp)を紹介した。これは人間の介入を最小限に抑えた大規模なデータセットで,野生で撮影された50万本以上のビデオと200万本の擬似アノテーションで構成されている。
しかし、これらの不完全な疑似アノテーションを直接事前学習することは、不一致の文-ビデオ対や不正確な時間境界など、重大な課題を呈する。
これらの問題に対処するために、セマンティックス誘導の洗練とメモリ合意補正という2つの主要なフェーズからなるReCorrectアルゴリズムを提案する。
セマンティックス誘導による改良により、ビデオフレームとのセマンティックな類似性を活用して、未使用データを除去し、時間境界に対する初期調整を行うことにより、擬似ラベルが強化される。
次のメモリ合意補正フェーズでは、メモリバンクがモデル予測を追跡し、メモリ内のコンセンサスに基づいて時間境界を段階的に補正する。
総合的な実験では、ReCorrectの強力な一般化能力が、複数の下流設定で実証されている。
Zero-shot ReCorrectは2つのベンチマークで最高の完全に教師されたパフォーマンスの75%と80%を達成し、教師なしのReCorrectは2つのベンチマークで約85%に達する。
コード、データセット、事前トレーニングされたモデルはhttps://github.com/baopj/Vid-Morp.comで入手できる。
関連論文リスト
- Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。