論文の概要: Live Video Captioning
- arxiv url: http://arxiv.org/abs/2406.14206v1
- Date: Thu, 20 Jun 2024 11:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:11:31.153838
- Title: Live Video Captioning
- Title(参考訳): Live Video Captioning
- Authors: Eduardo Blanco-Fernández, Carlos Gutiérrez-Álvarez, Nadia Nasri, Saturnino Maldonado-Bascón, Roberto J. López-Sastre,
- Abstract要約: LVC(Live Video Captioning)へのパラダイムシフトを導入する。
LVCでは、密集したビデオキャプションモデルがオンライン形式でビデオストリームのキャプションを生成する必要がある。
オンラインシナリオに適した新しい評価指標を提案し,従来の指標よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning is the task that involves the detection and description of events within video sequences. While traditional approaches focus on offline solutions where the entire video of analysis is available for the captioning model, in this work we introduce a paradigm shift towards Live Video Captioning (LVC). In LVC, dense video captioning models must generate captions for video streams in an online manner, facing important constraints such as having to work with partial observations of the video, the need for temporal anticipation and, of course, ensuring ideally a real-time response. In this work we formally introduce the novel problem of LVC and propose new evaluation metrics tailored for the online scenario, demonstrating their superiority over traditional metrics. We also propose an LVC model integrating deformable transformers and temporal filtering to address the LVC new challenges. Experimental evaluations on the ActivityNet Captions dataset validate the effectiveness of our approach, highlighting its performance in LVC compared to state-of-the-art offline methods. Results of our model as well as an evaluation kit with the novel metrics integrated are made publicly available to encourage further research on LVC.
- Abstract(参考訳): デンスビデオキャプションは、ビデオシーケンス内のイベントの検出と記述を含むタスクである。
従来のアプローチでは、キャプションモデルで分析ビデオ全体を利用できるオフラインソリューションに重点を置いていますが、本研究では、Live Video Captioning(LVC)へのパラダイムシフトを紹介します。
LVCでは、高密度ビデオキャプションモデルでは、ビデオストリームのキャプションをオンラインで生成し、ビデオの部分的な観察、時間的予測の必要性、そしてもちろん、理想的なリアルタイム応答の確保といった重要な制約に直面している。
本研究は,LVCの新たな課題を正式に紹介し,従来の指標よりも優れていることを示すオンラインシナリオに適した新しい評価指標を提案する。
また、変形可能な変圧器と時間フィルタリングを統合したLVCモデルを提案し、LVCの新たな課題に対処する。
ActivityNet Captionsデータセットの実験的評価は、我々のアプローチの有効性を検証し、最先端のオフライン手法と比較してLVCの性能を強調した。
LVCのさらなる研究を促進するため,本モデルと新たなメトリクスを組み込んだ評価キットを公開している。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for
Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [33.11253005768816]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
既存のアダプタは、ビデオフレームやテキストワード間の固有の時間的関係をキャプチャできない。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。
ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。
我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-18T05:42:01Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Delving Deeper into the Decoder for Video Captioning [23.202746094988715]
ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
論文 参考訳(メタデータ) (2020-01-16T02:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。