論文の概要: CLOP: Video-and-Language Pre-Training with Knowledge Regularizations
- arxiv url: http://arxiv.org/abs/2211.03314v1
- Date: Mon, 7 Nov 2022 05:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:24:36.434459
- Title: CLOP: Video-and-Language Pre-Training with Knowledge Regularizations
- Title(参考訳): CLOP: 知識正規化によるビデオとランゲージの事前学習
- Authors: Guohao Li, Hu Yang, Feng He, Zhifan Feng, Yajuan Lyu, Hua Wu, Haifeng
Wang
- Abstract要約: ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
- 参考スコア(独自算出の注目度): 43.09248976105326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-and-language pre-training has shown promising results for learning
generalizable representations. Most existing approaches usually model video and
text in an implicit manner, without considering explicit structural
representations of the multi-modal content. We denote such form of
representations as structural knowledge, which express rich semantics of
multiple granularities. There are related works that propose object-aware
approaches to inject similar knowledge as inputs. However, the existing methods
usually fail to effectively utilize such knowledge as regularizations to shape
a superior cross-modal representation space. To this end, we propose a
Cross-modaL knOwledge-enhanced Pre-training (CLOP) method with Knowledge
Regularizations. There are two key designs of ours: 1) a simple yet effective
Structural Knowledge Prediction (SKP) task to pull together the latent
representations of similar videos; and 2) a novel Knowledge-guided sampling
approach for Contrastive Learning (KCL) to push apart cross-modal hard negative
samples. We evaluate our method on four text-video retrieval tasks and one
multi-choice QA task. The experiments show clear improvements, outperforming
prior works by a substantial margin. Besides, we provide ablations and insights
of how our methods affect the latent representation space, demonstrating the
value of incorporating knowledge regularizations into video-and-language
pre-training.
- Abstract(参考訳): ビデオと言語による事前学習は、一般化された表現の学習に有望な結果を示している。
ほとんどの既存のアプローチは、通常、マルチモーダルコンテンツの明示的な構造表現を考慮せずに、暗黙的にビデオやテキストをモデル化する。
このような表現形式を構造的知識として表現し、複数の粒度の豊富な意味論を表現する。
類似した知識を入力として注入するオブジェクト指向アプローチを提案する関連研究がある。
しかし、既存の手法は通常、より優れたクロスモーダル表現空間を形成するための正規化のような知識を効果的に利用できない。
そこで本研究では,知識正規化を用いたCLOP(Cross-modaL knOwledge-enhanced Pre-training)手法を提案する。
私たちの重要なデザインは2つあります
1)類似動画の潜在表現をまとめる簡易かつ効果的な構造知識予測(SKP)タスク
2) コントラスト学習のための新しい知識誘導サンプリング手法 (kcl) により, クロスモーダル・ハード・ネガティブなサンプルを分離する。
本手法は4つのテキストビデオ検索タスクと1つのマルチ選択QAタスクで評価する。
実験は明確な改善を示し、以前の成果をかなりのマージンで上回った。
さらに,本手法が潜在表現空間にどのように影響するかをアブレーションし,映像・言語事前学習に知識正規化を組み込む価値を示す。
関連論文リスト
- Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。