論文の概要: Optimizing Latency for Online Video CaptioningUsing Audio-Visual
Transformers
- arxiv url: http://arxiv.org/abs/2108.02147v1
- Date: Wed, 4 Aug 2021 16:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:26:25.821061
- Title: Optimizing Latency for Online Video CaptioningUsing Audio-Visual
Transformers
- Title(参考訳): 視聴覚トランスフォーマーを用いたオンラインビデオキャプションにおける遅延の最適化
- Authors: Chiori Hori, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。
オーディオ映像トランスフォーマーは、すべてのビデオフレームのごく一部だけを使用して、接地木字幕を生成するように訓練される。
CNNベースのタイミング検出器もトレーニングされ、適切な出力タイミングを検出し、2つのトランスフォーマーによって生成されたキャプションが十分に近接する。
- 参考スコア(独自算出の注目度): 54.705393237822044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning is an essential technology to understand scenes and describe
events in natural language. To apply it to real-time monitoring, a system needs
not only to describe events accurately but also to produce the captions as soon
as possible. Low-latency captioning is needed to realize such functionality,
but this research area for online video captioning has not been pursued yet.
This paper proposes a novel approach to optimize each caption's output timing
based on a trade-off between latency and caption quality. An audio-visual
Trans-former is trained to generate ground-truth captions using only a small
portion of all video frames, and to mimic outputs of a pre-trained Transformer
to which all the frames are given. A CNN-based timing detector is also trained
to detect a proper output timing, where the captions generated by the two
Trans-formers become sufficiently close to each other. With the jointly trained
Transformer and timing detector, a caption can be generated in the early stages
of an event-triggered video clip, as soon as an event happens or when it can be
forecasted. Experiments with the ActivityNet Captions dataset show that our
approach achieves 94% of the caption quality of the upper bound given by the
pre-trained Transformer using the entire video clips, using only 28% of frames
from the beginning.
- Abstract(参考訳): ビデオキャプションは、シーンを理解し、自然言語でイベントを記述するのに不可欠な技術である。
リアルタイムモニタリングに適用するには,イベントを正確に記述するだけでなく,可能な限り早くキャプションを生成する必要がある。
このような機能を実現するには低遅延キャプションが必要であるが、このオンラインビデオキャプションの研究領域はまだ追求されていない。
本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。
オーディオ視覚変換器は、すべてのビデオフレームのごく一部しか使用せず、すべてのフレームが与えられる事前訓練されたトランスフォーマーの出力を模倣するように訓練される。
また、cnnベースのタイミング検出器を訓練して、二つのトランスフォーマによって生成されたキャプションが十分に近接する適切な出力タイミングを検出する。
共同で訓練されたトランスフォーマーとタイミング検出器により、イベントが発生し、いつ予測できるか、イベントトリガーされたビデオクリップの初期段階でキャプションを生成することができる。
ActivityNet Captionsデータセットを用いた実験では,ビデオクリップ全体を用いて,事前学習したトランスフォーマーが付与した上限のキャプション品質の94%を,当初から28%のフレームで達成できた。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。