論文の概要: Prompting Visual-Language Models for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2112.04478v1
- Date: Wed, 8 Dec 2021 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 13:47:40.039025
- Title: Prompting Visual-Language Models for Efficient Video Understanding
- Title(参考訳): 効率的な映像理解のための視覚言語モデルの提案
- Authors: Chen Ju, Tengda Han, Kunhao Zheng, Ya Zhang, Weidi Xie
- Abstract要約: 本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
- 参考スコア(独自算出の注目度): 28.754997650215486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-language pre-training has shown great success for learning joint
visual-textual representations from large-scale web data, demonstrating
remarkable ability for zero-shot generalisation. This paper presents a simple
method to efficiently adapt one pre-trained visual-language model to novel
tasks with minimal training, and here, we consider video understanding tasks.
Specifically, we propose to optimise a few random vectors, termed as continuous
prompt vectors, that convert the novel tasks into the same format as the
pre-training objectives. In addition, to bridge the gap between static images
and videos, temporal information is encoded with lightweight Transformers
stacking on top of frame-wise visual features. Experimentally, we conduct
extensive ablation studies to analyse the critical components and necessities.
On 9 public benchmarks of action recognition, action localisation, and
text-video retrieval, across closed-set, few-shot, open-set scenarios, we
achieve competitive or state-of-the-art performance to existing methods,
despite training significantly fewer parameters.
- Abstract(参考訳): ビジュアル言語の事前学習は、大規模なwebデータから共同のビジュアルテキスト表現を学習するのに大きな成功を示し、ゼロショット一般化の顕著な能力を示している。
本稿では,事前学習された1つの視覚言語モデルを最小限の学習で新しいタスクに効率的に適応させる簡単な手法を提案する。
具体的には,新しいタスクを事前学習目的と同一の形式に変換する,連続的プロンプトベクトルと呼ばれるランダムベクトルを最適化することを提案する。
さらに、静的画像とビデオのギャップを埋めるために、時間情報はフレームワイドの視覚的特徴の上に積み重ねられた軽量トランスフォーマーでエンコードされる。
実験では, 重要な構成要素と必要条件を分析するため, 広範囲なアブレーション研究を行う。
アクション認識,アクションローカライズ,テキストビデオ検索の9つの公開ベンチマークにおいて,クローズドセット,少数ショット,オープンセットのシナリオにおいて,パラメータのトレーニングが著しく少ないにもかかわらず,既存の手法に対する競争力と最先端のパフォーマンスを達成している。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。