論文の概要: Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2502.15370v1
- Date: Fri, 21 Feb 2025 10:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:50.462566
- Title: Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
- Title(参考訳): 自然言語による映像シーングラフ生成の弱さ
- Authors: Kibum Kim, Kanghoon Yoon, Yeonjun In, Jaehyeong Jeon, Jinyoung Moon, Donghyun Kim, Chanyoung Park,
- Abstract要約: 既存のビデオシーングラフ生成(VidSGG)研究は、完全に教師された方法で訓練されている。
利用可能なビデオキャプションのみを利用する自然言語ベースのビデオシーングラフ生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.97296273461145
- License:
- Abstract: Existing Video Scene Graph Generation (VidSGG) studies are trained in a fully supervised manner, which requires all frames in a video to be annotated, thereby incurring high annotation cost compared to Image Scene Graph Generation (ImgSGG). Although the annotation cost of VidSGG can be alleviated by adopting a weakly supervised approach commonly used for ImgSGG (WS-ImgSGG) that uses image captions, there are two key reasons that hinder such a naive adoption: 1) Temporality within video captions, i.e., unlike image captions, video captions include temporal markers (e.g., before, while, then, after) that indicate time related details, and 2) Variability in action duration, i.e., unlike human actions in image captions, human actions in video captions unfold over varying duration. To address these issues, we propose a Natural Language-based Video Scene Graph Generation (NL-VSGG) framework that only utilizes the readily available video captions for training a VidSGG model. NL-VSGG consists of two key modules: Temporality-aware Caption Segmentation (TCS) module and Action Duration Variability-aware caption-frame alignment (ADV) module. Specifically, TCS segments the video captions into multiple sentences in a temporal order based on a Large Language Model (LLM), and ADV aligns each segmented sentence with appropriate frames considering the variability in action duration. Our approach leads to a significant enhancement in performance compared to simply applying the WS-ImgSGG pipeline to VidSGG on the Action Genome dataset. As a further benefit of utilizing the video captions as weak supervision, we show that the VidSGG model trained by NL-VSGG is able to predict a broader range of action classes that are not included in the training data, which makes our framework practical in reality.
- Abstract(参考訳): 既存のビデオシーングラフ生成(VidSGG)研究は、完全に教師された方法で訓練されており、ビデオ内のすべてのフレームに注釈を付ける必要があるため、画像シーングラフ生成(ImgSGG)と比較して高いアノテーションコストが生じる。
画像キャプションを用いたImgSG(WS-ImgSGG)で一般的に使用される弱制御アプローチを採用することで、VidSGのアノテーションコストを軽減できるが、そのようなナイーブな導入を妨げる2つの主要な理由がある。
1)ビデオキャプション内の時間性、すなわち、画像キャプションとは異なり、時間に関する詳細を示す時間的マーカー(例えば、前、前、後、後)を含む。
2) 映像キャプションにおける人間の行動とは違って, 映像キャプションにおける人間の行動は, 時間とともに展開する。
これらの課題に対処するために,VidSGGモデルのトレーニングに利用可能なビデオキャプションのみを利用する自然言語ベースのビデオシーングラフ生成(NL-VSGG)フレームワークを提案する。
NL-VSGGは、Temporality-aware Caption Segmentation (TCS)モジュールとAction Duration-aware Caption-frame alignment (ADV)モジュールの2つの主要なモジュールで構成されている。
具体的には、ビデオキャプションをLarge Language Model(LLM)に基づいて時間順に複数の文に分割し、ADVは各セグメント化された文をアクション期間の変動性を考慮した適切なフレームに整列する。
われわれのアプローチは、Action Genomeデータセット上のVidSGGにWS-ImgSGパイプラインを適用すれば、パフォーマンスが大幅に向上する。
NL-VSGG が訓練した VidSGG モデルでは,映像キャプションを弱い監督力として活用することで,トレーニングデータに含まれない幅広いアクションクラスを予測できることを示す。
関連論文リスト
- Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。