論文の概要: TempCLR: Temporal Alignment Representation with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2212.13738v1
- Date: Wed, 28 Dec 2022 08:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:27:00.372196
- Title: TempCLR: Temporal Alignment Representation with Contrastive Learning
- Title(参考訳): TempCLR: コントラスト学習による時間的アライメント表現
- Authors: Yuncong Yang, Jiawei Ma, Shiyuan Huang, Long Chen, Xudong Lin,
Guangxing Han, Shih-Fu Chang
- Abstract要約: 本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングを一般化する。
- 参考スコア(独自算出の注目度): 35.12182087403215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video representation learning has been successful in video-text pre-training
for zero-shot transfer, where each sentence is trained to be close to the
paired video clips in a common feature space. For long videos, given a
paragraph of description where the sentences describe different segments of the
video, by matching all sentence-clip pairs, the paragraph and the full video
are aligned implicitly. However, such unit-level similarity measure may ignore
the global temporal context over a long time span, which inevitably limits the
generalization ability. In this paper, we propose a contrastive learning
framework TempCLR to compare the full video and the paragraph explicitly. As
the video/paragraph is formulated as a sequence of clips/sentences, under the
constraint of their temporal order, we use dynamic time warping to compute the
minimum cumulative cost over sentence-clip pairs as the sequence-level
distance. To explore the temporal dynamics, we break the consistency of
temporal order by shuffling the video clips or sentences according to the
temporal granularity. In this way, we obtain the representations for
clips/sentences, which perceive the temporal information and thus facilitate
the sequence alignment. In addition to pre-training on the video and paragraph,
our approach can also generalize on the matching between different video
instances. We evaluate our approach on video retrieval, action step
localization, and few-shot action recognition, and achieve consistent
performance gain over all three tasks. Detailed ablation studies are provided
to justify the approach design.
- Abstract(参考訳): ビデオ表現学習はゼロショット転送のためのビデオテキスト事前学習に成功しており、各文は共通の特徴空間でペアビデオクリップに近いように訓練されている。
長いビデオでは、文章がビデオの異なるセグメントを記述した段落が与えられ、全ての文とクリップのペアをマッチングすることで、段落と全動画が暗黙的に並べられる。
しかし、このような単位レベルの類似度尺度は、大域的時間的文脈を長い時間にわたって無視する可能性がある。
本稿では,ビデオの全文と段落を明示的に比較するコントラスト学習フレームワークであるTempCLRを提案する。
ビデオ/パラグラフはクリップ/文のシーケンスとして定式化され、時間的順序の制約の下で、動的時間ワープを用いて、文-クリップペアの最小累積コストをシーケンスレベル距離として計算する。
時間的ダイナミクスを探索するために、時間的粒度に応じてビデオクリップや文をシャッフルすることで、時間的秩序の一貫性を破る。
このようにして、時間的情報を知覚し、シーケンスアライメントを容易にするクリップ/文の表現を得る。
ビデオとパラグラフの事前トレーニングに加えて、異なるビデオインスタンス間のマッチングを一般化することも可能です。
我々は,ビデオ検索,アクションステップのローカライゼーション,数発のアクション認識に対するアプローチを評価し,3つのタスクすべてに対して一貫したパフォーマンス向上を実現する。
アプローチ設計を正当化するための詳細なアブレーション研究が提供されている。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding [22.59291334338824]
相関ガイドによる検出TRansformerは、クエリ関連ビデオクリップのヒントを提供する。
CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-15T10:22:35Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。