論文の概要: Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization
- arxiv url: http://arxiv.org/abs/2506.20567v1
- Date: Wed, 25 Jun 2025 16:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.832049
- Title: Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization
- Title(参考訳): Show, Tell and Summarize:Dense Video Captioning using Visual Cue Aided Sentence Summarization
- Authors: Zhiwang Zhang, Dong Xu, Wanli Ouyang, Chuanqi Tan,
- Abstract要約: 本稿では,高密度映像キャプションのための分割・要約(DaS)フレームワークを提案する。
生成した文が豊富な意味的記述を含むことを考慮し,映像の字幕化タスクを視覚的キュー支援文要約問題として定式化する。
ActivityNet Captionsデータセットに関する実験により,我々は新たに提案したDASフレームワークの高密度動画キャプションへの応用を実証した。
- 参考スコア(独自算出の注目度): 83.7571144192515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a division-and-summarization (DaS) framework for dense video captioning. After partitioning each untrimmed long video as multiple event proposals, where each event proposal consists of a set of short video segments, we extract visual feature (e.g., C3D feature) from each segment and use the existing image/video captioning approach to generate one sentence description for this segment. Considering that the generated sentences contain rich semantic descriptions about the whole event proposal, we formulate the dense video captioning task as a visual cue aided sentence summarization problem and propose a new two stage Long Short Term Memory (LSTM) approach equipped with a new hierarchical attention mechanism to summarize all generated sentences as one descriptive sentence with the aid of visual features. Specifically, the first-stage LSTM network takes all semantic words from the generated sentences and the visual features from all segments within one event proposal as the input, and acts as the encoder to effectively summarize both semantic and visual information related to this event proposal. The second-stage LSTM network takes the output from the first-stage LSTM network and the visual features from all video segments within one event proposal as the input, and acts as the decoder to generate one descriptive sentence for this event proposal. Our comprehensive experiments on the ActivityNet Captions dataset demonstrate the effectiveness of our newly proposed DaS framework for dense video captioning.
- Abstract(参考訳): 本研究では,高密度映像キャプションのための分割・要約(DaS)フレームワークを提案する。
各イベント提案が短いビデオセグメントからなる複数のイベント提案として分割した後、各セグメントから視覚的特徴(例えば、C3D特徴)を抽出し、既存の画像/映像キャプションアプローチを用いて、このセグメントの1つの文記述を生成する。
生成した文にはイベント提案全体に関する豊富な意味的記述が含まれていることを考慮し、この濃密なビデオキャプションタスクを視覚的キュー支援文要約問題として定式化し、新しい階層的注意機構を備えた2段階のLong Short Term Memory (LSTM)アプローチを提案し、全ての生成された文を視覚的特徴の助けを借りて1つの記述文として要約する。
具体的には、第一段階のLSTMネットワークは、生成された文からすべての意味語と、1つのイベント提案内の全てのセグメントから視覚特徴を入力として取り出し、このイベント提案に関連する意味情報と視覚情報の両方を効果的に要約するエンコーダとして機能する。
第2段LSTMネットワークは、第1段LSTMネットワークからの出力と、1つのイベントプロポーザル内のすべてのビデオセグメントの視覚的特徴を入力とし、デコーダとして機能し、このイベントプロポーザルに対して1つの記述文を生成する。
ActivityNet Captionsデータセットに関する包括的実験により,新たに提案したDaSフレームワークの高密度動画キャプションへの応用が実証された。
関連論文リスト
- Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。
本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-25T16:23:43Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。