論文の概要: Sali4Vid: Saliency-Aware Video Reweighting and Adaptive Caption Retrieval for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2509.04602v1
- Date: Thu, 04 Sep 2025 18:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.386294
- Title: Sali4Vid: Saliency-Aware Video Reweighting and Adaptive Caption Retrieval for Dense Video Captioning
- Title(参考訳): Sali4Vid:Saliency対応のビデオリヘアリングと、Dense Video CaptioningのためのAdaptive Caption Retrieval
- Authors: MinJu Jeon, Si-Woo Kim, Ye-Chan Kim, HyunGee Kim, Dong-Jin Kim,
- Abstract要約: デンスビデオキャプションは、ビデオ内のイベントを時間的にローカライズし、各イベントのキャプションを生成することを目的としている。
シンプルだが効果的なサリエンシ対応フレームワークであるSali4Vidを提案する。
本稿では,Saliency-aware Video Reweightingを紹介し,タイムスタンプアノテーションをシグモイドベースのフレーム重み付けに変換するとともに,セマンティックベースのAdaptive Caption Retrievalを導入する。
- 参考スコア(独自算出の注目度): 8.85874498800987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning aims to temporally localize events in video and generate captions for each event. While recent works propose end-to-end models, they suffer from two limitations: (1) applying timestamp supervision only to text while treating all video frames equally, and (2) retrieving captions from fixed-size video chunks, overlooking scene transitions. To address these, we propose Sali4Vid, a simple yet effective saliency-aware framework. We introduce Saliency-aware Video Reweighting, which converts timestamp annotations into sigmoid-based frame importance weights, and Semantic-based Adaptive Caption Retrieval, which segments videos by frame similarity to capture scene transitions and improve caption retrieval. Sali4Vid achieves state-of-the-art results on YouCook2 and ViTT, demonstrating the benefit of jointly improving video weighting and retrieval for dense video captioning
- Abstract(参考訳): デンスビデオキャプションは、ビデオ内のイベントを時間的にローカライズし、各イベントのキャプションを生成することを目的としている。
近年の研究では,(1)動画フレームを均等に扱いながらテキストのみにタイムスタンプの監督を適用すること,(2)シーン遷移を見渡すことで,固定サイズのビデオチャンクからキャプションを取得すること,の2つの限界が提案されている。
これらの問題に対処するため,Sali4Vidという,シンプルだが効果的なSaliency-awareフレームワークを提案する。
本研究では,Saliency-aware Video Reweightingを導入し,タイムスタンプアノテーションをシグミドベースのフレーム重み付けに変換するとともに,セマンティックベースのAdaptive Caption Retrievalを導入し,シーン遷移をキャプチャし,キャプション検索を改善する。
Sali4VidはYouCook2とViTTの最先端結果を達成し、高密度ビデオキャプションにおけるビデオ重み付けと検索を共同で改善する利点を実証する
関連論文リスト
- ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。