論文の概要: Dense Video Captioning using Graph-based Sentence Summarization
- arxiv url: http://arxiv.org/abs/2506.20583v1
- Date: Wed, 25 Jun 2025 16:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.841394
- Title: Dense Video Captioning using Graph-based Sentence Summarization
- Title(参考訳): グラフベース文要約を用いたDense Video Captioning
- Authors: Zhiwang Zhang, Dong Xu, Wanli Ouyang, Luping Zhou,
- Abstract要約: 本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。
本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
- 参考スコア(独自算出の注目度): 80.52481563888459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, dense video captioning has made attractive progress in detecting and captioning all events in a long untrimmed video. Despite promising results were achieved, most existing methods do not sufficiently explore the scene evolution within an event temporal proposal for captioning, and therefore perform less satisfactorily when the scenes and objects change over a relatively long proposal. To address this problem, we propose a graph-based partition-and-summarization (GPaS) framework for dense video captioning within two stages. For the ``partition" stage, a whole event proposal is split into short video segments for captioning at a finer level. For the ``summarization" stage, the generated sentences carrying rich description information for each segment are summarized into one sentence to describe the whole event. We particularly focus on the ``summarization" stage, and propose a framework that effectively exploits the relationship between semantic words for summarization. We achieve this goal by treating semantic words as nodes in a graph and learning their interactions by coupling Graph Convolutional Network (GCN) and Long Short Term Memory (LSTM), with the aid of visual cues. Two schemes of GCN-LSTM Interaction (GLI) modules are proposed for seamless integration of GCN and LSTM. The effectiveness of our approach is demonstrated via an extensive comparison with the state-of-the-arts methods on the two benchmarks ActivityNet Captions dataset and YouCook II dataset.
- Abstract(参考訳): 近年、高密度動画キャプションは、長い未編集ビデオ中の全てのイベントを検出し、キャプションする上で、魅力的な進歩を遂げている。
有望な結果が得られたにも拘わらず、既存のほとんどの手法は、キャプションのイベント時間的提案の中でシーンの進化を十分に探求していないため、比較的長い提案でシーンやオブジェクトが変化すると、満足度が低下する。
この問題に対処するために,2段階以内の高密度ビデオキャプションのためのグラフベース分割・要約(GPaS)フレームワークを提案する。
イベント提案全体を、より細かいレベルでキャプションするためのショートビデオセグメントに分割する。「サマリゼーション」ステージでは、各セグメントに豊富な記述情報を含む生成された文を1つの文にまとめて、イベント全体を記述する。
本稿では,特に「要約」の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
グラフのノードとしての意味的単語を扱い、グラフ畳み込みネットワーク(GCN)とLong Short Term Memory(LSTM)を視覚的手がかりの助けを借りてそれらの相互作用を学習することで、この目標を達成する。
GCNとLSTMのシームレスな統合のために,GCN-LSTMインタラクション(GLI)モジュールの2つのスキームを提案する。
提案手法の有効性は,ActivityNet CaptionsデータセットとYouCook IIデータセットの2つのベンチマークにおける最先端手法との比較によって実証される。
関連論文リスト
- Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization [83.7571144192515]
本稿では,高密度映像キャプションのための分割・要約(DaS)フレームワークを提案する。
生成した文が豊富な意味的記述を含むことを考慮し,映像の字幕化タスクを視覚的キュー支援文要約問題として定式化する。
ActivityNet Captionsデータセットに関する実験により,我々は新たに提案したDASフレームワークの高密度動画キャプションへの応用を実証した。
論文 参考訳(メタデータ) (2025-06-25T16:02:04Z) - Fine-Grained Video Captioning through Scene Graph Consolidation [44.30028794237688]
本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。
提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
論文 参考訳(メタデータ) (2025-02-23T03:59:05Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。