論文の概要: Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge
Distillation and Cross-modal Matching
- arxiv url: http://arxiv.org/abs/2105.08252v1
- Date: Tue, 18 May 2021 03:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 13:58:47.393006
- Title: Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge
Distillation and Cross-modal Matching
- Title(参考訳): 知識蒸留とクロスモーダルマッチングの併用による弱教師付き密集ビデオキャプション
- Authors: Bofeng Wu, Guocheng Niu, Jun Yu, Xinyan Xiao, Jian Zhang and Hua Wu
- Abstract要約: 本稿では,ペアワイズなイベントセンテンスアノテーションを使わずに動画キャプション(dvc)を行う手法を提案する。
適切かつよく解決されたタスクから抽出された知識を採用し、高品質のイベント提案を生成します。
コントラスト損失とサイクル一貫性損失を組み込んで、提案と文のセマンティックマッチングを構築します。
- 参考スコア(独自算出の注目度): 32.58463449158339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an approach to Dense Video Captioning (DVC) without
pairwise event-sentence annotation. First, we adopt the knowledge distilled
from relevant and well solved tasks to generate high-quality event proposals.
Then we incorporate contrastive loss and cycle-consistency loss typically
applied to cross-modal retrieval tasks to build semantic matching between the
proposals and sentences, which are eventually used to train the caption
generation module. In addition, the parameters of matching module are
initialized via pre-training based on annotated images to improve the matching
performance. Extensive experiments on ActivityNet-Caption dataset reveal the
significance of distillation-based event proposal generation and cross-modal
retrieval-based semantic matching to weakly supervised DVC, and demonstrate the
superiority of our method to existing state-of-the-art methods.
- Abstract(参考訳): 本稿では,ペアワイズなイベントセンテンスアノテーションを使わずに動画キャプション(dvc)を行う手法を提案する。
まず,関連する課題から抽出した知識を用いて,高品質なイベント提案を生成する。
次に,提案文と文のセマンティックマッチングを構築するために,典型的にクロスモーダル検索タスクに適用されるコントラッシブ・ロスとサイクル・一貫性・ロスを取り入れ,最終的にキャプション生成モジュールのトレーニングに使用される。
また、アノテート画像に基づく事前学習によりマッチングモジュールのパラメータを初期化し、マッチング性能を向上させる。
activitynet-captionデータセットに関する広範な実験は、蒸留に基づくイベント提案生成と、弱い教師付きdvcとのクロスモーダル検索に基づく意味マッチングの意義を明らかにし、この手法が既存の最先端手法に優れていることを示す。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Sample Efficient Multimodal Semantic Augmentation for Incremental
Summarization [13.529904498331673]
タスクビデオの漸進的な要約のためのプロンプト手法を開発した。
既存のモデルを用いて画像から意味概念を抽出する。
関連データセットに結果を示し、作業の可能な方向性について議論する。
論文 参考訳(メタデータ) (2023-03-08T03:58:06Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。
本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。
提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文 参考訳(メタデータ) (2022-05-24T12:28:12Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。