論文の概要: Verbs in Action: Improving verb understanding in video-language models
- arxiv url: http://arxiv.org/abs/2304.06708v1
- Date: Thu, 13 Apr 2023 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:31:20.422913
- Title: Verbs in Action: Improving verb understanding in video-language models
- Title(参考訳): Verbs in Action: ビデオ言語モデルにおける動詞理解の改善
- Authors: Liliane Momeni, Mathilde Caron, Arsha Nagrani, Andrew Zisserman,
Cordelia Schmid
- Abstract要約: CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
- 参考スコア(独自算出の注目度): 128.87443209118726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding verbs is crucial to modelling how people and objects interact
with each other and the environment through space and time. Recently,
state-of-the-art video-language models based on CLIP have been shown to have
limited verb understanding and to rely extensively on nouns, restricting their
performance in real-world video applications that require action and temporal
understanding. In this work, we improve verb understanding for CLIP-based
video-language models by proposing a new Verb-Focused Contrastive (VFC)
framework. This consists of two main components: (1) leveraging pretrained
large language models (LLMs) to create hard negatives for cross-modal
contrastive learning, together with a calibration strategy to balance the
occurrence of concepts in positive and negative pairs; and (2) enforcing a
fine-grained, verb phrase alignment loss. Our method achieves state-of-the-art
results for zero-shot performance on three downstream tasks that focus on verb
understanding: video-text matching, video question-answering and video
classification. To the best of our knowledge, this is the first work which
proposes a method to alleviate the verb understanding problem, and does not
simply highlight it.
- Abstract(参考訳): 動詞を理解することは、人とオブジェクトが空間と時間を通して相互や環境とどのように相互作用するかをモデル化するために重要である。
近年、クリップに基づく最先端のビデオ言語モデルは、動詞の理解が限られており、名詞に依存しており、アクションや時間的理解を必要とする実世界のビデオアプリケーションでのパフォーマンスが制限されていることが示されている。
本稿では,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,VFC(Verb-Focused Contrastive)フレームワークを提案する。
本研究は,(1)事前学習された大規模言語モデル(LLM)を活用して,正と負のペアの概念のバランスをとるための校正戦略,(2)きめ細かな動詞句のアライメント損失を強制する2つの主要な構成要素から構成される。
提案手法は, 言語理解に重点を置く3つの下流タスク, ビデオテキストマッチング, ビデオ質問応答, ビデオ分類において, ゼロショット性能を実現する。
私たちの知る限りでは、これは動詞理解問題を緩和し、単に強調するものではない方法を提案する最初の作品である。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Language-based Action Concept Spaces Improve Video Self-Supervised
Learning [8.746806973828738]
画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。
時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
論文 参考訳(メタデータ) (2023-07-20T14:47:50Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文 参考訳(メタデータ) (2021-09-29T01:40:58Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。