論文の概要: Semi-Parametric Video-Grounded Text Generation
- arxiv url: http://arxiv.org/abs/2301.11507v1
- Date: Fri, 27 Jan 2023 03:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:41:50.088979
- Title: Semi-Parametric Video-Grounded Text Generation
- Title(参考訳): 半パラメトリックビデオグラウンドテキスト生成
- Authors: Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
- Abstract要約: 本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
- 参考スコア(独自算出の注目度): 21.506377836451577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient video-language modeling should consider the computational cost
because of a large, sometimes intractable, number of video frames. Parametric
approaches such as the attention mechanism may not be ideal since its
computational cost quadratically increases as the video length increases.
Rather, previous studies have relied on offline feature extraction or frame
sampling to represent the video efficiently, focusing on cross-modal modeling
in short video clips. In this paper, we propose a semi-parametric
video-grounded text generation model, SeViT, a novel perspective on scalable
video-language modeling toward long untrimmed videos. Treating a video as an
external data store, SeViT includes a non-parametric frame retriever to select
a few query-relevant frames from the data store for a given query and a
parametric generator to effectively aggregate the frames with the query via
late fusion methods. Experimental results demonstrate our method has a
significant advantage in longer videos and causal video understanding.
Moreover, our model achieves the new state of the art on four video-language
datasets, iVQA (+4.8), Next-QA (+6.9), and Activitynet-QA (+4.8) in accuracy,
and MSRVTT-Caption (+3.6) in CIDEr.
- Abstract(参考訳): 効率的なビデオ言語モデリングは、大きな、時には難解なビデオフレーム数のために計算コストを考慮すべきである。
注意機構のようなパラメトリックアプローチは、ビデオの長さが増加するにつれて計算コストが2次的に増加するので理想的ではないかもしれない。
むしろ、従来の研究はオフラインの機能抽出やフレームサンプリングに依存しており、短いビデオクリップのクロスモーダルモデリングに焦点を当てている。
本稿では,長大なビデオに対するスケーラブルなビデオ言語モデリングの新たな視点として,半パラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
映像を外部データストアとして扱うsevitは、所定のクエリのためにデータストアからいくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーと、遅延フュージョンメソッドを介してクエリで効率的にフレームを集約するパラメトリックジェネレータを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
さらに,本モデルでは,4つのビデオ言語データセット,iVQA(+4.8),Next-QA(+6.9),Activitynet-QA(+4.8),MSRVTT-Caption(+3.6)を精度良く実現している。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames [39.03408879727955]
クロスモーダルなビデオ検索は、テキストを問合せとして与えられた意味のあるビデオを取得することを目的としている。
一般的な単純な解決策は、ビデオからViTへの入力として少数のフレームを均一にサンプリングすることである。
本稿では,このトレードオフを解消するために,バイレベル最適化プログラムに基づく自動ビデオ圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T05:35:00Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。