論文の概要: Semi-Parametric Video-Grounded Text Generation
- arxiv url: http://arxiv.org/abs/2301.11507v1
- Date: Fri, 27 Jan 2023 03:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:41:50.088979
- Title: Semi-Parametric Video-Grounded Text Generation
- Title(参考訳): 半パラメトリックビデオグラウンドテキスト生成
- Authors: Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
- Abstract要約: 本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
- 参考スコア(独自算出の注目度): 21.506377836451577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient video-language modeling should consider the computational cost
because of a large, sometimes intractable, number of video frames. Parametric
approaches such as the attention mechanism may not be ideal since its
computational cost quadratically increases as the video length increases.
Rather, previous studies have relied on offline feature extraction or frame
sampling to represent the video efficiently, focusing on cross-modal modeling
in short video clips. In this paper, we propose a semi-parametric
video-grounded text generation model, SeViT, a novel perspective on scalable
video-language modeling toward long untrimmed videos. Treating a video as an
external data store, SeViT includes a non-parametric frame retriever to select
a few query-relevant frames from the data store for a given query and a
parametric generator to effectively aggregate the frames with the query via
late fusion methods. Experimental results demonstrate our method has a
significant advantage in longer videos and causal video understanding.
Moreover, our model achieves the new state of the art on four video-language
datasets, iVQA (+4.8), Next-QA (+6.9), and Activitynet-QA (+4.8) in accuracy,
and MSRVTT-Caption (+3.6) in CIDEr.
- Abstract(参考訳): 効率的なビデオ言語モデリングは、大きな、時には難解なビデオフレーム数のために計算コストを考慮すべきである。
注意機構のようなパラメトリックアプローチは、ビデオの長さが増加するにつれて計算コストが2次的に増加するので理想的ではないかもしれない。
むしろ、従来の研究はオフラインの機能抽出やフレームサンプリングに依存しており、短いビデオクリップのクロスモーダルモデリングに焦点を当てている。
本稿では,長大なビデオに対するスケーラブルなビデオ言語モデリングの新たな視点として,半パラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
映像を外部データストアとして扱うsevitは、所定のクエリのためにデータストアからいくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーと、遅延フュージョンメソッドを介してクエリで効率的にフレームを集約するパラメトリックジェネレータを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
さらに,本モデルでは,4つのビデオ言語データセット,iVQA(+4.8),Next-QA(+6.9),Activitynet-QA(+4.8),MSRVTT-Caption(+3.6)を精度良く実現している。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。