論文の概要: Live Video Captioning
- arxiv url: http://arxiv.org/abs/2406.14206v2
- Date: Mon, 26 May 2025 12:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.424165
- Title: Live Video Captioning
- Title(参考訳): Live Video Captioning
- Authors: Eduardo Blanco-Fernández, Carlos Gutiérrez-Álvarez, Nadia Nasri, Saturnino Maldonado-Bascón, Roberto J. López-Sastre,
- Abstract要約: オンラインで動画ストリームにキャプションを生成しなければならないLive Video Captioning (LVC) という,画期的なパラダイムを紹介した。
我々は,LVCの新たな課題を正式に定義し,このオンラインシナリオに特化して設計された革新的な評価指標を提案する。
本稿では,変形可能な変換器と時間的フィルタリングを組み合わせた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning involves detecting and describing events within video sequences. Traditional methods operate in an offline setting, assuming the entire video is available for analysis. In contrast, in this work we introduce a groundbreaking paradigm: Live Video Captioning (LVC), where captions must be generated for video streams in an online manner. This shift brings unique challenges, including processing partial observations of the events and the need for a temporal anticipation of the actions. We formally define the novel problem of LVC and propose innovative evaluation metrics specifically designed for this online scenario, demonstrating their advantages over traditional metrics. To address the novel complexities of LVC, we present a new model that combines deformable transformers with temporal filtering, enabling effective captioning over video streams. Extensive experiments on the ActivityNet Captions dataset validate the proposed approach, showcasing its superior performance in the LVC setting compared to state-of-the-art offline methods. To foster further research, we provide the results of our model and an evaluation toolkit with the new metrics integrated at: https://github.com/gramuah/lvc.
- Abstract(参考訳): デンスビデオキャプションは、ビデオシーケンス内のイベントを検出し、記述する。
従来の手法はオフラインで動作し、ビデオ全体が分析に利用できると仮定する。
対照的に、本研究では、オンラインで動画ストリームにキャプションを生成しなければならないLive Video Captioning (LVC)という、画期的なパラダイムを紹介します。
このシフトは、イベントの部分的な観察の処理や、アクションの時間的予測の必要性など、ユニークな課題をもたらす。
我々は,LVCの新たな課題を正式に定義し,このオンラインシナリオに特化して設計された革新的な評価指標を提案し,従来の指標よりもその利点を実証する。
LVCの複雑さに対処するために、変形可能なトランスフォーマーと時間的フィルタリングを組み合わせた新しいモデルを提案し、ビデオストリーム上で効果的なキャプションを可能にする。
ActivityNet Captionsデータセットの大規模な実験は、提案したアプローチを検証し、最先端のオフラインメソッドと比較して、LVC設定における優れたパフォーマンスを示している。
さらなる研究を促進するため,本モデルと評価ツールキットについて, https://github.com/gramuah/lvc.com/glvcに新たなメトリクスを統合した。
関連論文リスト
- DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。
ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。
我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-18T05:42:01Z) - Delving Deeper into the Decoder for Video Captioning [23.202746094988715]
ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
論文 参考訳(メタデータ) (2020-01-16T02:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。