論文の概要: Fine-Grained Video Captioning through Scene Graph Consolidation
- arxiv url: http://arxiv.org/abs/2502.16427v1
- Date: Sun, 23 Feb 2025 03:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.155275
- Title: Fine-Grained Video Captioning through Scene Graph Consolidation
- Title(参考訳): Scene Graph Consolidationによる細粒度ビデオキャプション
- Authors: Sanghyeok Chu, Seonguk Seo, Bohyung Han,
- Abstract要約: 本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。
提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
- 参考スコア(独自算出の注目度): 44.30028794237688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual language models (VLMs) have significantly improved image captioning, but extending these gains to video understanding remains challenging due to the scarcity of fine-grained video captioning datasets. To bridge this gap, we propose a novel zero-shot video captioning approach that combines frame-level scene graphs from a video to obtain intermediate representations for caption generation. Our method first generates frame-level captions using an image VLM, converts them into scene graphs, and consolidates these graphs to produce comprehensive video-level descriptions. To achieve this, we leverage a lightweight graph-to-text model trained solely on text corpora, eliminating the need for video captioning annotations. Experiments on the MSR-VTT and ActivityNet Captions datasets show that our approach outperforms zero-shot video captioning baselines, demonstrating that aggregating frame-level scene graphs yields rich video understanding without requiring large-scale paired data or high inference cost.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は画像キャプションを大幅に改善しているが、細かなビデオキャプションデータセットが不足しているため、ビデオ理解にこれらの向上を拡大することは依然として困難である。
このギャップを埋めるために,ビデオからフレームレベルのシーングラフを組み合わせてキャプション生成のための中間表現を得る,ゼロショットビデオキャプション手法を提案する。
提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
これを実現するために,テキストコーパスのみに訓練された軽量なグラフ・テキストモデルを活用し,ビデオキャプションアノテーションを不要とした。
MSR-VTTデータセットとActivityNet Captionsデータセットの実験により、我々のアプローチはゼロショットビデオキャプションベースラインよりも優れており、大規模なペアリングデータや高い推論コストを必要とせず、フレームレベルのシーングラフを集約することでリッチなビデオ理解が得られることを示した。
関連論文リスト
- Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。
本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-25T16:23:43Z) - VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models [48.00262713744499]
VideoCompは、ビデオテキストの構成性を理解するためのベンチマークおよび学習フレームワークである。
我々は,再順序付け,行動語置換,部分的字幕化,複合的ディスラプションなどの微妙な時間的破壊を伴う挑戦的な負のサンプルを作成する。
これらのベンチマークは、拡張された凝集性ビデオテキストシーケンスにわたるモデルの構成感度を包括的にテストする。
論文 参考訳(メタデータ) (2025-04-04T22:24:30Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。