論文の概要: Video Summarization: Towards Entity-Aware Captions
- arxiv url: http://arxiv.org/abs/2312.02188v1
- Date: Fri, 1 Dec 2023 23:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:33:04.462695
- Title: Video Summarization: Towards Entity-Aware Captions
- Title(参考訳): ビデオ要約:エンティティ対応キャプションに向けて
- Authors: Hammad A. Ayyubi, Tianqi Liu, Arsha Nagrani, Xudong Lin, Mingda Zhang,
Anurag Arnab, Feng Han, Yukun Zhu, Jialu Liu, Shih-Fu Chang
- Abstract要約: 本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
- 参考スコア(独自算出の注目度): 75.71891605682931
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing popular video captioning benchmarks and models deal with generic
captions devoid of specific person, place or organization named entities. In
contrast, news videos present a challenging setting where the caption requires
such named entities for meaningful summarization. As such, we propose the task
of summarizing news video directly to entity-aware captions. We also release a
large-scale dataset, VIEWS (VIdeo NEWS), to support research on this task.
Further, we propose a method that augments visual information from videos with
context retrieved from external world knowledge to generate entity-aware
captions. We demonstrate the effectiveness of our approach on three video
captioning models. We also show that our approach generalizes to existing news
image captions dataset. With all the extensive experiments and insights, we
believe we establish a solid basis for future research on this challenging
task.
- Abstract(参考訳): 既存の人気ビデオキャプションベンチマークやモデルでは、特定の人物、場所、組織名なしの一般的なキャプションを扱う。
対照的に、ニュースビデオは、キャプションが意味のある要約のためにそのような名前のエンティティを必要とする困難な設定を示す。
そこで本稿では,ニュースビデオを直接エンティティ対応キャプションに要約するタスクを提案する。
また、このタスクの研究を支援するために、大規模なデータセットVIEWS(VIdeo NEWS)をリリースしています。
さらに,外部の知識から抽出した文脈で映像からの視覚情報を増強し,エンティティ対応キャプションを生成する手法を提案する。
提案手法の有効性を3つのビデオキャプションモデルに示す。
また,本手法が既存のニュース画像キャプションデータセットに一般化することを示す。
広範な実験と洞察によって、我々はこの挑戦的な課題に関する将来の研究の確固たる基盤を確立すると信じている。
関連論文リスト
- Subject-Oriented Video Captioning [64.08594243670296]
そこで本稿では,提案するビデオキャプションタスクである主観的ビデオキャプションを提案する。
我々は、MSVDとMSRVTTという2つの広く使われているビデオキャプションデータセットに基づいて、2つの主題指向ビデオキャプションデータセットを構築した。
最初の試みとして、最先端の4つの一般的なビデオキャプションモデルを評価し、大きな性能低下を観測した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Exploiting Prompt Caption for Video Grounding [54.46067948276649]
ビデオグラウンド化のためのPCNet(Prompt Caption Network)を提案する。
即時キャプションにおける潜在的な情報を取得するために,キャプション誘導注意(CGA)を提案する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。