論文の概要: MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge
- arxiv url: http://arxiv.org/abs/2303.08914v2
- Date: Sat, 22 Jul 2023 09:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:41:57.639540
- Title: MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge
- Title(参考訳): MAtch, eXpand, Improve: 言語知識を用いたゼロショット動作認識のための教師なしファインタニング
- Authors: Wei Lin, Leonid Karlinsky, Nina Shvetsova, Horst Possegger, Mateusz
Kozinski, Rameswar Panda, Rogerio Feris, Hilde Kuehne, Horst Bischof
- Abstract要約: 大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
- 参考スコア(独自算出の注目度): 35.45809761628721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale Vision-Language (VL) models have shown tremendous success in
aligning representations between visual and text modalities. This enables
remarkable progress in zero-shot recognition, image generation & editing, and
many other exciting tasks. However, VL models tend to over-represent objects
while paying much less attention to verbs, and require additional tuning on
video data for best zero-shot action recognition performance. While previous
work relied on large-scale, fully-annotated data, in this work we propose an
unsupervised approach. We adapt a VL model for zero-shot and few-shot action
recognition using a collection of unlabeled videos and an unpaired action
dictionary. Based on that, we leverage Large Language Models and VL models to
build a text bag for each unlabeled video via matching, text expansion and
captioning. We use those bags in a Multiple Instance Learning setup to adapt an
image-text backbone to video data. Although finetuned on unlabeled video data,
our resulting models demonstrate high transferability to numerous unseen
zero-shot downstream tasks, improving the base VL model performance by up to
14\%, and even comparing favorably to fully-supervised baselines in both
zero-shot and few-shot video recognition transfer. The code will be released
later at \url{https://github.com/wlin-at/MAXI}.
- Abstract(参考訳): 大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
これにより、ゼロショット認識、画像生成と編集、その他多くのエキサイティングなタスクが著しく進歩する。
しかしながら、VLモデルはオブジェクトを過剰に表現する傾向があり、動詞にはあまり注意を払わず、最高のゼロショットアクション認識性能のためにビデオデータにさらなるチューニングを必要とする。
これまでの研究は大規模で完全に注釈付けされたデータに依存していたが、本研究では教師なしのアプローチを提案する。
我々は、ラベルなしビデオのコレクションと未ペアアクション辞書を用いて、ゼロショットおよび少数ショットアクション認識のためのVLモデルを適応する。
それに基づいて,大規模言語モデルとvlモデルを用いて,マッチング,テキスト拡張,キャプションによる非ラベルビデオ毎にテキストバッグを構築する。
イメージテキストのバックボーンをビデオデータに適応させるために、これらのバッグをMultiple Instance Learningセットアップで使用します。
非ラベルビデオデータに微調整を施したものの,多数のゼロショットダウンストリームタスクに対して高い転送性を示し,ベースvlモデルの性能を最大14\%向上させ,ゼロショットと少数ショットビデオの両方で完全に教師付きベースラインと比較した。
コードは後に \url{https://github.com/wlin-at/MAXI} でリリースされる。
関連論文リスト
- Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。