論文の概要: Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts
- arxiv url: http://arxiv.org/abs/2309.15915v1
- Date: Wed, 27 Sep 2023 18:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:20:36.322847
- Title: Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts
- Title(参考訳): マルチモーダルプロンプトによるゼロショットと少数ショットビデオ質問応答
- Authors: Deniz Engin and Yannis Avrithis
- Abstract要約: 最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
- 参考スコア(独自算出の注目度): 14.610244867640471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision-language models are driven by large-scale pretrained models.
However, adapting pretrained models on limited data presents challenges such as
overfitting, catastrophic forgetting, and the cross-modal gap between vision
and language. We introduce a parameter-efficient method to address these
challenges, combining multimodal prompt learning and a transformer-based
mapping network, while keeping the pretrained models frozen. Our experiments on
several video question answering benchmarks demonstrate the superiority of our
approach in terms of performance and parameter efficiency on both zero-shot and
few-shot settings. Our code is available at https://engindeniz.github.io/vitis.
- Abstract(参考訳): 最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
しかし、限られたデータに事前訓練されたモデルを適用すると、過度な適合、破滅的な忘れ込み、視覚と言語の間の相互のギャップといった課題が生じる。
本稿では,これらの課題に対処するパラメータ効率の手法を導入し,事前学習したモデルを凍結したまま,マルチモーダル・プロンプト学習とトランスフォーマーベースのマッピングネットワークを組み合わせた。
いくつかのビデオ質問応答ベンチマークにおける実験は,ゼロショットとマイショットの両方において,性能とパラメータ効率の点で,我々のアプローチが優れていることを示している。
私たちのコードはhttps://engindeniz.github.io/vitisで利用可能です。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。