論文の概要: Multi-Scale Contrastive Learning for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2412.07157v1
- Date: Tue, 10 Dec 2024 03:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:17.576967
- Title: Multi-Scale Contrastive Learning for Video Temporal Grounding
- Title(参考訳): ビデオ時間グラウンドのためのマルチスケールコントラスト学習
- Authors: Thong Thanh Nguyen, Yi Bin, Xiaobao Wu, Zhiyuan Hu, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu,
- Abstract要約: 自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。
本稿ではビデオモーメント間の有能な意味を捉えるための対照的な学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.180296672043404
- License:
- Abstract: Temporal grounding, which localizes video moments related to a natural language query, is a core problem of vision-language learning and video understanding. To encode video moments of varying lengths, recent methods employ a multi-level structure known as a feature pyramid. In this structure, lower levels concentrate on short-range video moments, while higher levels address long-range moments. Because higher levels experience downsampling to accommodate increasing moment length, their capacity to capture information is reduced and consequently leads to degraded information in moment representations. To resolve this problem, we propose a contrastive learning framework to capture salient semantics among video moments. Our key methodology is to leverage samples from the feature space emanating from multiple stages of the video encoder itself requiring neither data augmentation nor online memory banks to obtain positive and negative samples. To enable such an extension, we introduce a sampling process to draw multiple video moments corresponding to a common query. Subsequently, by utilizing these moments' representations across video encoder layers, we instantiate a novel form of multi-scale and cross-scale contrastive learning that links local short-range video moments with global long-range video moments. Extensive experiments demonstrate the effectiveness of our framework for not only long-form but also short-form video grounding.
- Abstract(参考訳): 自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。
様々な長さのビデオモーメントを符号化するために、近年の手法では特徴ピラミッドと呼ばれる多層構造を用いる。
この構造では、低レベルは短距離ビデオモーメントに集中し、高レベルは長距離モーメントに対処する。
高レベルは、モーメント長の増加に対応するためにダウンサンプリングを経験するため、情報を取得する能力は減少し、結果としてモーメント表現における劣化した情報をもたらす。
この問題を解決するために,ビデオモーメント間の有能なセマンティクスをキャプチャするコントラスト学習フレームワークを提案する。
我々の主要な手法は、ビデオエンコーダの複数段階から発せられる特徴空間からのサンプルを活用することであり、データ拡張やオンラインメモリバンクを必要とせず、正のサンプルと負のサンプルを得る。
このような拡張を可能にするために、サンプルプロセスを導入し、共通のクエリに対応する複数のビデオモーメントを描画する。
その後、ビデオエンコーダ層にまたがるこれらのモーメントの表現を利用して、局所的短距離ビデオモーメントとグローバルな長距離ビデオモーメントを結びつける、マルチスケールおよびクロススケールコントラスト学習の新たな形態をインスタンス化する。
広汎な実験により,長尺映像だけでなく短尺映像のグラウンド化にも,我々のフレームワークの有効性が示された。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。