論文の概要: Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2412.12791v1
- Date: Tue, 17 Dec 2024 10:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:11.218779
- Title: Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning
- Title(参考訳): 弱スーパービジョンDense Video Captioningのための補間マスキングによるインシシトロケーション・キャプションアライメント
- Authors: Shiping Ge, Qiang Chen, Zhiwei Jiang, Yafeng Yin, Liu Qin, Ziyao Chen, Qing Gu,
- Abstract要約: Weakly-Supervised Dense Video Captioningは、イベント境界のアノテーションを必要とせずに、ビデオ内のすべてのイベントをローカライズし、記述することを目的としている。
既存の方法は、イベントの位置とキャプションの間の明示的なアライメントの制約に依存している。
補似マスキングによる新しい暗黙的位置キャプチャアライメントパラダイムを提案する。
- 参考スコア(独自算出の注目度): 12.066823214932345
- License:
- Abstract: Weakly-Supervised Dense Video Captioning (WSDVC) aims to localize and describe all events of interest in a video without requiring annotations of event boundaries. This setting poses a great challenge in accurately locating the temporal location of event, as the relevant supervision is unavailable. Existing methods rely on explicit alignment constraints between event locations and captions, which involve complex event proposal procedures during both training and inference. To tackle this problem, we propose a novel implicit location-caption alignment paradigm by complementary masking, which simplifies the complex event proposal and localization process while maintaining effectiveness. Specifically, our model comprises two components: a dual-mode video captioning module and a mask generation module. The dual-mode video captioning module captures global event information and generates descriptive captions, while the mask generation module generates differentiable positive and negative masks for localizing the events. These masks enable the implicit alignment of event locations and captions by ensuring that captions generated from positively and negatively masked videos are complementary, thereby forming a complete video description. In this way, even under weak supervision, the event location and event caption can be aligned implicitly. Extensive experiments on the public datasets demonstrate that our method outperforms existing weakly-supervised methods and achieves competitive results compared to fully-supervised methods.
- Abstract(参考訳): Wakly-Supervised Dense Video Captioning (WSDVC)は、イベント境界のアノテーションを必要とせずに、ビデオ内のすべてのイベントをローカライズし、記述することを目的としている。
この設定は、関連する監視が利用できないため、イベントの時間的位置を正確に特定する上で大きな課題となる。
既存の方法は、トレーニングと推論の両方で複雑なイベント提案手順を含む、イベント位置とキャプション間の明示的なアライメント制約に依存している。
この問題に対処するために,複雑なイベント提案と局所化プロセスを簡略化し,有効性を維持しつつ,補間マスキングによる新しい暗黙的位置キャプチャアライメントパラダイムを提案する。
具体的には,2モードビデオキャプションモジュールとマスク生成モジュールの2つのコンポーネントから構成される。
デュアルモードビデオキャプションモジュールは、グローバルイベント情報をキャプチャして記述キャプションを生成し、マスク生成モジュールは、イベントをローカライズするための識別可能な正および負のマスクを生成する。
これらのマスクは、肯定的および否定的にマスキングされたビデオから生成されたキャプションが相補的であることを保証することにより、イベントの位置やキャプションの暗黙的なアライメントを可能にし、完全なビデオ記述を形成する。
このように、弱い監督下であっても、イベントの位置とイベントキャプションは暗黙的にアライメントされる。
公開データセットに対する大規模な実験により,本手法は既存の弱教師付き手法よりも優れ,完全教師付き手法と比較して競争結果が得られることが示された。
関連論文リスト
- Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Dense Video Captioning Using Unsupervised Semantic Information [2.8712233051808957]
本稿では,複雑な事象をより単純な事象に分解できるという前提に基づいて,教師なしの視覚情報を学習する手法を提案する。
我々は、コードブックエントリの共起確率行列を符号化することで、密度の高い表現を学習する。
論文 参考訳(メタデータ) (2021-12-15T20:03:42Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Actor and Action Modular Network for Text-based Video Segmentation [28.104884795973177]
テキストベースのビデオセグメンテーションは、アクターとその動作をテキストクエリで指定することで、アクターをビデオシーケンスに分割することを目的としている。
従来の方法では、アクターとそのアクションに従って、ビデオコンテンツとテキストクエリをきめ細かな方法で明示的に調整することができない。
本稿では,アクターとそのアクションを2つの異なるモジュールに個別にローカライズする,アクターとアクションのモジュールネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T07:32:39Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。