論文の概要: Multi-granularity Correspondence Learning from Long-term Noisy Videos
- arxiv url: http://arxiv.org/abs/2401.16702v1
- Date: Tue, 30 Jan 2024 03:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:18:39.271403
- Title: Multi-granularity Correspondence Learning from Long-term Noisy Videos
- Title(参考訳): 長期雑音映像からの複数粒度対応学習
- Authors: Yijie Lin, Jie Zhang, Zhenyu Huang, Jia Liu, Zujie Wen, Xi Peng
- Abstract要約: クリップキャプションミスアライメント(粗粒度)とフレームワードミスアライメント(細粒度)に対処するため,NOise Robust Optimal traNsport(Norton)を提案する。
Nortonは、ビデオパラグラフとクリップキャプションの対照的な損失を利用して、輸送距離に基づいて長期的な依存関係をキャプチャする。
細粒度のミスアライメントに対処するため、Nortonはソフト・マックス演算子を組み込んで重要な単語とキーフレームを識別する。
- 参考スコア(独自算出の注目度): 22.014456053657156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video-language studies mainly focus on learning short video clips,
leaving long-term temporal dependencies rarely explored due to over-high
computational cost of modeling long videos. To address this issue, one feasible
solution is learning the correspondence between video clips and captions, which
however inevitably encounters the multi-granularity noisy correspondence (MNC)
problem. To be specific, MNC refers to the clip-caption misalignment
(coarse-grained) and frame-word misalignment (fine-grained), hindering temporal
learning and video understanding. In this paper, we propose NOise Robust
Temporal Optimal traNsport (Norton) that addresses MNC in a unified optimal
transport (OT) framework. In brief, Norton employs video-paragraph and
clip-caption contrastive losses to capture long-term dependencies based on OT.
To address coarse-grained misalignment in video-paragraph contrast, Norton
filters out the irrelevant clips and captions through an alignable prompt
bucket and realigns asynchronous clip-caption pairs based on transport
distance. To address the fine-grained misalignment, Norton incorporates a
soft-maximum operator to identify crucial words and key frames. Additionally,
Norton exploits the potential faulty negative samples in clip-caption contrast
by rectifying the alignment target with OT assignment to ensure precise
temporal modeling. Extensive experiments on video retrieval, videoQA, and
action segmentation verify the effectiveness of our method. Code is available
at https://lin-yijie.github.io/projects/Norton.
- Abstract(参考訳): 既存のビデオ言語の研究は、主に短いビデオクリップの学習に焦点を当てており、長いビデオのモデリングの計算コストが高すぎるため、長期間の時間依存がほとんど解決されない。
この問題に対処するためには、ビデオクリップとキャプションの対応を学習することが必要だが、それは必然的に多粒度雑音対応 (multi-granularity noise correspondence, mnc) の問題に直面する。
具体的に言えば、MNCはクリップキャプションのミスアライメント(粗い粒度)とフレームワードのミスアライメント(細い粒度)を指し、時間的学習とビデオ理解を妨げる。
本稿では,MNCを一貫した最適輸送(OT)フレームワークで処理するNOise Robust Temporal Optimal traNsport(Norton)を提案する。
簡単に言うと、norton氏はotに基づいた長期的な依存関係を捉えるために、ビデオパラグラフとクリップキャプチャのコントラスト損失を使用している。
ビデオパラグラフコントラストにおける粗い不一致に対処するため、ノートンは無関係なクリップとキャプションを調整可能なプロンプトバケットでフィルタリングし、移動距離に基づいて非同期のクリップ・キャプチャペアを再認識する。
細粒度のミスアライメントに対処するため、Nortonはソフトマックス演算子を組み込んで重要な単語とキーフレームを識別する。
さらにnorton氏は、アライメントターゲットとot割り当てを正し、正確な時間的モデリングを保証することで、クリップキャプチャコントラストの潜在的な欠点のある負のサンプルを活用している。
ビデオ検索,ビデオqa,アクションセグメンテーションに関する広範囲な実験を行い,本手法の有効性を確認した。
コードはhttps://lin-yijie.github.io/projects/norton.com/で入手できる。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion [15.013908857230966]
ルークバック機構は、異なるビデオクリップ間の微粒なシーン遷移を促進する。
長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅距離を明示的に最小化することに焦点を当てる。
単文および複数文のプロンプト条件下で長ビデオ生成を行うことによる戦略の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-07T16:56:42Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - Temporal Alignment Networks for Long-term Video [103.69904379356413]
本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
論文 参考訳(メタデータ) (2022-04-06T17:59:46Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。