論文の概要: Fine-Grained Captioning of Long Videos through Scene Graph Consolidation
- arxiv url: http://arxiv.org/abs/2502.16427v2
- Date: Mon, 07 Jul 2025 04:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.241156
- Title: Fine-Grained Captioning of Long Videos through Scene Graph Consolidation
- Title(参考訳): Scene Graph Consolidationによるロングビデオの細粒化キャプション
- Authors: Sanghyeok Chu, Seonguk Seo, Bohyung Han,
- Abstract要約: グラフ統合に基づく長大なビデオキャプションのための新しいフレームワークを提案する。
提案手法はまず,個々のフレームや短いビデオ間隔に対応するセグメントレベルのキャプションを生成する。
軽量なグラフからテキストへのデコーダが最後にビデオレベルのキャプションを生成する。
- 参考スコア(独自算出の注目度): 44.30028794237688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models have led to impressive progress in caption generation for images and short video clips. However, these models remain constrained by their limited temporal receptive fields, making it difficult to produce coherent and comprehensive captions for long videos. While several methods have been proposed to aggregate information across video segments, they often rely on supervised fine-tuning or incur significant computational overhead. To address these challenges, we introduce a novel framework for long video captioning based on graph consolidation. Our approach first generates segment-level captions, corresponding to individual frames or short video intervals, using off-the-shelf visual captioning models. These captions are then parsed into individual scene graphs, which are subsequently consolidated into a unified graph representation that preserves both holistic context and fine-grained details throughout the video. A lightweight graph-to-text decoder then produces the final video-level caption. This framework effectively extends the temporal understanding capabilities of existing models without requiring any additional fine-tuning on long video datasets. Experimental results show that our method significantly outperforms existing LLM-based consolidation approaches, achieving strong zero-shot performance while substantially reducing computational costs.
- Abstract(参考訳): 近年の視覚言語モデルの発展により、画像や短いビデオクリップのキャプション生成が著しく進歩している。
しかし、これらのモデルは、時間的受容領域が限られているため、長いビデオのコヒーレントで包括的なキャプションを作成することは困難である。
ビデオセグメントにまたがる情報を集約するいくつかの手法が提案されているが、それらはしばしば教師付き微調整や重要な計算オーバーヘッドに頼っている。
これらの課題に対処するために,グラフ統合に基づく長大動画キャプションのための新しいフレームワークを提案する。
提案手法はまず,市販のビジュアルキャプションモデルを用いて,個々のフレームや短いビデオ間隔に対応するセグメントレベルのキャプションを生成する。
これらのキャプションは個別のシーングラフに解析され、その後統合されたグラフ表現にまとめられ、ビデオ全体を通して全体的コンテキストと細かな詳細の両方を保存する。
軽量なグラフからテキストへのデコーダが最後にビデオレベルのキャプションを生成する。
このフレームワークは、長いビデオデータセットの追加的な微調整を必要とせずに、既存のモデルの時間的理解能力を効果的に拡張する。
実験結果から,提案手法は従来のLCM法よりも大幅に優れ,ゼロショット性能が向上し,計算コストを大幅に削減できることがわかった。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。