論文の概要: Technical Report for Soccernet 2023 -- Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2411.00882v1
- Date: Thu, 31 Oct 2024 14:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:10.699554
- Title: Technical Report for Soccernet 2023 -- Dense Video Captioning
- Title(参考訳): Soccernet 2023のテクニカルレポート -- Dense Video Captioning
- Authors: Zheng Ruan, Ruixuan Liu, Shimin Chen, Mengying Zhou, Xinquan Yang, Wei Li, Chen Chen, Wei Shen,
- Abstract要約: サッカーの各アクションのビデオキャプションを生成し、キャプションのタイムスタンプを特定することを提案する。
まず,ビデオキャプションの枠組みとしてBlipを適用し,動画キャプションを生成する。
次に,(1)マルチサイズスライディングウインドウを用いた時間スタンプの探索,(2)時間的提案生成と(3)提案分類を行う。
- 参考スコア(独自算出の注目度): 13.16548288196954
- License:
- Abstract: In the task of dense video captioning of Soccernet dataset, we propose to generate a video caption of each soccer action and locate the timestamp of the caption. Firstly, we apply Blip as our video caption framework to generate video captions. Then we locate the timestamp by using (1) multi-size sliding windows (2) temporal proposal generation and (3) proposal classification.
- Abstract(参考訳): サッカーネットデータセットの高密度動画キャプションのタスクでは,各サッカーアクションのビデオキャプションを生成し,キャプションのタイムスタンプを特定することを提案する。
まず,ビデオキャプションの枠組みとしてBlipを適用し,動画キャプションを生成する。
次に,(1)マルチサイズスライディングウインドウを用いた時間スタンプの探索,(2)時間的提案生成と(3)提案分類を行う。
関連論文リスト
- It's Just Another Day: Unique Video Captioning by Discriminative Prompting [70.99367779336256]
同じキャプションを持つ複数のクリップが与えられた場合、各クリップに対して、そのキャプションをユニークに識別する新しいキャプションを生成する。
CDPが生成したキャプションは、エゴセントリックなビデオでは15%改善し、タイムループ映画では10%改善した。
論文 参考訳(メタデータ) (2024-10-15T15:41:49Z) - Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers [93.65253661843145]
高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
論文 参考訳(メタデータ) (2024-02-29T18:59:50Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Optimizing Latency for Online Video CaptioningUsing Audio-Visual
Transformers [54.705393237822044]
本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。
オーディオ映像トランスフォーマーは、すべてのビデオフレームのごく一部だけを使用して、接地木字幕を生成するように訓練される。
CNNベースのタイミング検出器もトレーニングされ、適切な出力タイミングを検出し、2つのトランスフォーマーによって生成されたキャプションが十分に近接する。
論文 参考訳(メタデータ) (2021-08-04T16:20:00Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。