論文の概要: The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning
- arxiv url: http://arxiv.org/abs/2503.23679v1
- Date: Mon, 31 Mar 2025 03:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:24.706164
- Title: The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning
- Title(参考訳): シーンコンテンツの明示的モデリングは、ゼロショットビデオキャプションの鍵となる
- Authors: Mingkai Tian, Guorong Li, Yuankai Qi, Amin Beheshti, Javen Qinfeng Shi, Anton van den Hengel, Qingming Huang,
- Abstract要約: ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
- 参考スコア(独自算出の注目度): 89.64905703368255
- License:
- Abstract: Zero-shot video captioning requires that a model generate high-quality captions without human-annotated video-text pairs for training. State-of-the-art approaches to the problem leverage CLIP to extract visual-relevant textual prompts to guide language models in generating captions. These methods tend to focus on one key aspect of the scene and build a caption that ignores the rest of the visual input. To address this issue, and generate more accurate and complete captions, we propose a novel progressive multi-granularity textual prompting strategy for zero-shot video captioning. Our approach constructs three distinct memory banks, encompassing noun phrases, scene graphs of noun phrases, and entire sentences. Moreover, we introduce a category-aware retrieval mechanism that models the distribution of natural language surrounding the specific topics in question. Extensive experiments demonstrate the effectiveness of our method with 5.7%, 16.2%, and 3.4% improvements in terms of the main metric CIDEr on MSR-VTT, MSVD, and VATEX benchmarks compared to existing state-of-the-art.
- Abstract(参考訳): ゼロショットビデオキャプションでは、トレーニングのために人間が注釈付けしたビデオテキストペアなしで高品質なキャプションを生成する必要がある。
この問題に対する最先端のアプローチは、CLIPを利用して視覚関連テキストプロンプトを抽出し、キャプションを生成する際の言語モデルをガイドする。
これらの手法はシーンの1つの重要な側面に集中し、残りの視覚的な入力を無視したキャプションを構築する傾向がある。
この問題に対処し、より正確で完全なキャプションを生成するために、ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
さらに,特定のトピックを取り巻く自然言語の分布をモデル化するカテゴリ認識検索機構を導入する。
MSR-VTT, MSVD, VATEXベンチマークにおいて, 提案手法の有効性を5.7%, 16.2%, 3.4%改善した。
関連論文リスト
- Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。