論文の概要: Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners
- arxiv url: http://arxiv.org/abs/2205.10747v1
- Date: Sun, 22 May 2022 05:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:15:21.723466
- Title: Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners
- Title(参考訳): 画像記述子を持つ言語モデルとビデオ言語学習者
- Authors: Zhenhailong Wang, Manling Li, Ruochen Xu, Luowei Zhou, Jie Lei, Xudong
Lin, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Derek Hoiem, Shih-Fu Chang,
Mohit Bansal, Heng Ji
- Abstract要約: 画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換し、時間構造テンプレートに構成する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
- 参考スコア(独自算出の注目度): 167.0346394848718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to build flexible video-language models that can
generalize to various video-to-text tasks from few examples, such as
domain-specific captioning, question answering, and future event prediction.
Existing few-shot video-language learners focus exclusively on the encoder,
resulting in the absence of a video-to-text decoder to handle generative tasks.
Video captioners have been pretrained on large-scale video-language datasets,
but they rely heavily on finetuning and lack the ability to generate text for
unseen tasks in a few-shot setting. We propose VidIL, a few-shot Video-language
Learner via Image and Language models, which demonstrates strong performance on
few-shot video-to-text tasks without the necessity of pretraining or finetuning
on any video datasets. We use the image-language models to translate the video
content into frame captions, object, attribute, and event phrases, and compose
them into a temporal structure template. We then instruct a language model,
with a prompt containing a few in-context examples, to generate a target output
from the composed content. The flexibility of prompting allows the model to
capture any form of text input, such as automatic speech recognition (ASR)
transcripts. Our experiments demonstrate the power of language models in
understanding videos on a wide variety of video-language tasks, including video
captioning, video question answering, video caption retrieval, and video future
event prediction. Especially, on video future event prediction, our few-shot
model significantly outperforms state-of-the-art supervised models trained on
large-scale video datasets.
- Abstract(参考訳): この研究の目的は、ドメイン固有のキャプション、質問応答、将来のイベント予測など、いくつかの例から様々なビデオ・テキストタスクに一般化できる柔軟なビデオ言語モデルを構築することである。
既存の数発のビデオ言語学習者はエンコーダのみに集中しており、生成タスクを処理するビデオからテキストへのデコーダが存在しない。
ビデオキャプションは大規模なビデオ言語データセットで事前訓練されているが、微調整に大きく依存しており、数ショットで見えないタスクのためのテキストを生成する能力がない。
そこで本研究では,ビデオデータセットの事前学習や微調整を必要とせず,映像と言語モデルによるビデオ言語学習システムvidilを提案する。
画像言語モデルを用いて,映像コンテンツをフレームキャプション,オブジェクト,属性,イベントフレーズに変換し,時間構造テンプレートに合成する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルを指示し、合成されたコンテンツからターゲット出力を生成する。
プロンプトの柔軟性により、モデルが任意の形式のテキスト入力、例えば自動音声認識(asr)の書き起こしをキャプチャできる。
実験では,ビデオキャプション,ビデオ質問応答,ビデオキャプション検索,ビデオ未来のイベント予測など,様々なビデオ言語タスクにおける映像理解における言語モデルの有用性を実証した。
特にビデオの将来的なイベント予測では,私たちのマイショットモデルは,大規模ビデオデータセットでトレーニングされた最先端の教師付きモデルを大幅に上回っています。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。