論文の概要: A CLIP-Enhanced Method for Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2110.07137v1
- Date: Thu, 14 Oct 2021 03:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:57:28.577355
- Title: A CLIP-Enhanced Method for Video-Language Understanding
- Title(参考訳): 映像言語理解のためのCLIP強化手法
- Authors: Guohao Li, Feng He, Zhifan Feng
- Abstract要約: 下流のビデオテキストタスクに画像テキスト事前学習の知識を組み込むCLIP-法を提案する。
我々の手法はVALUEベンチマークのMeta-Aveスコアを2.4%$(57.58$から60.00$)上回る。
- 参考スコア(独自算出の注目度): 6.2599103111386265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report summarizes our method for the Video-And-Language
Understanding Evaluation (VALUE) challenge
(https://value-benchmark.github.io/challenge\_2021.html). We propose a
CLIP-Enhanced method to incorporate the image-text pretrained knowledge into
downstream video-text tasks. Combined with several other improved designs, our
method outperforms the state-of-the-art by $2.4\%$ ($57.58$ to $60.00$)
Meta-Ave score on VALUE benchmark.
- Abstract(参考訳): 本稿では,ビデオと言語理解評価(VALUE)の課題(https://value-benchmark.github.io/challenge\_2021.html)について概説する。
下流のビデオテキストタスクに画像テキスト事前学習の知識を組み込むCLIP拡張手法を提案する。
他のいくつかの改良された設計と組み合わせて、我々の手法はVALUEベンチマークのMeta-Aveスコアを2.4\%$$57.58$から60.00$に改善した。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - From Wrong To Right: A Recursive Approach Towards Vision-Language
Explanation [60.746079839840895]
ReVisE: a $textbfRe$cursive $textbfVis$ual $textbfE$xplanationアルゴリズムを示します。
本手法は,視覚的特徴(テキスト入力で条件付き),回答,説明を反復的に計算する。
この多段階のアプローチは、モデルが自身の回答を正し、単段階の説明生成よりも優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-11-21T07:02:32Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文 参考訳(メタデータ) (2023-03-28T14:08:05Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs [2.7920304852537536]
ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現するための,Unified Perceptionという新しいアプローチを提案する。
本手法では,画像ベースネットワークで計算されたオブジェクトの埋め込みを (再) 利用する,単純な2段階のカスケード追跡アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-03T15:00:12Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。