論文の概要: SGCap: Decoding Semantic Group for Zero-shot Video Captioning
- arxiv url: http://arxiv.org/abs/2508.01270v1
- Date: Sat, 02 Aug 2025 09:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.796299
- Title: SGCap: Decoding Semantic Group for Zero-shot Video Captioning
- Title(参考訳): SGCap: ゼロショットビデオキャプションのためのセマンティックグループをデコード
- Authors: Zeyu Pan, Ping Li, Wenxiao Wang,
- Abstract要約: ゼロショットビデオキャプションは、ビデオテキストペアのモデルをトレーニングすることなく、ビデオを記述するための文を生成することを目的としている。
ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
- 参考スコア(独自算出の注目度): 14.484825416367338
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot video captioning aims to generate sentences for describing videos without training the model on video-text pairs, which remains underexplored. Existing zero-shot image captioning methods typically adopt a text-only training paradigm, where a language decoder reconstructs single-sentence embeddings obtained from CLIP. However, directly extending them to the video domain is suboptimal, as applying average pooling over all frames neglects temporal dynamics. To address this challenge, we propose a Semantic Group Captioning (SGCap) method for zero-shot video captioning. In particular, it develops the Semantic Group Decoding (SGD) strategy to employ multi-frame information while explicitly modeling inter-frame temporal relationships. Furthermore, existing zero-shot captioning methods that rely on cosine similarity for sentence retrieval and reconstruct the description supervised by a single frame-level caption, fail to provide sufficient video-level supervision. To alleviate this, we introduce two key components, including the Key Sentences Selection (KSS) module and the Probability Sampling Supervision (PSS) module. The two modules construct semantically-diverse sentence groups that models temporal dynamics and guide the model to capture inter-sentence causal relationships, thereby enhancing its generalization ability to video captioning. Experimental results on several benchmarks demonstrate that SGCap significantly outperforms previous state-of-the-art zero-shot alternatives and even achieves performance competitive with fully supervised ones. Code is available at https://github.com/mlvccn/SGCap_Video.
- Abstract(参考訳): ゼロショットビデオキャプションは、ビデオテキストペアのモデルを訓練することなく、ビデオを記述するための文を生成することを目的としている。
既存のゼロショット画像キャプション手法はテキストのみのトレーニングパラダイムを採用しており、言語デコーダはCLIPから得られた単一文の埋め込みを再構築する。
しかし、すべてのフレームに平均プーリングを適用することで時間的ダイナミクスを無視するため、ビデオ領域に直接拡張することは最適ではない。
この課題に対処するために,ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
特に、フレーム間の時間的関係を明示的にモデル化しながら、多フレーム情報を利用するセマンティックグループデコーディング(SGD)戦略を開発する。
さらに, 既存のゼロショットキャプション法では, 文検索のコサイン類似性に依存し, 単一のフレームレベルのキャプションで教師される記述を再構築しても, 十分な映像レベルの監視が得られない。
これを軽減するために、キーセンテンス選択(KSS)モジュールと確率サンプリングスーパービジョン(PSS)モジュールの2つの重要なコンポーネントを紹介します。
この2つのモジュールは、時間的ダイナミクスをモデル化し、モデルを誘導し、文間因果関係をキャプチャし、ビデオキャプションの一般化能力を向上する意味論的多元文群を構成する。
いくつかのベンチマーク実験の結果、SGCapは最先端のゼロショットの選択肢よりも大幅に優れており、完全に教師されたものよりも性能が優れていることが示されている。
コードはhttps://github.com/mlvccn/SGCap_Videoで入手できる。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Weakly Supervised Video Scene Graph Generation via Natural Language Supervision [27.97296273461145]
既存のビデオシーングラフ生成(VidSGG)研究は、完全に教師された方法で訓練されている。
利用可能なビデオキャプションのみを利用する自然言語ベースのビデオシーングラフ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-21T10:42:04Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning [13.601154787754046]
DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文 参考訳(メタデータ) (2024-10-12T10:21:00Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Semantic Grouping Network for Video Captioning [11.777063873936598]
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-01T13:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。