論文の概要: Semantic Grouping Network for Video Captioning
- arxiv url: http://arxiv.org/abs/2102.00831v2
- Date: Wed, 3 Feb 2021 11:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 13:59:50.396597
- Title: Semantic Grouping Network for Video Captioning
- Title(参考訳): ビデオキャプションのためのセマンティックグループネットワーク
- Authors: Hobin Ryu, Sunghun Kang, Haeyong Kang, and Chang D. Yoo
- Abstract要約: SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 11.777063873936598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers a video caption generating network referred to as
Semantic Grouping Network (SGN) that attempts (1) to group video frames with
discriminating word phrases of partially decoded caption and then (2) to decode
those semantically aligned groups in predicting the next word. As consecutive
frames are not likely to provide unique information, prior methods have focused
on discarding or merging repetitive information based only on the input video.
The SGN learns an algorithm to capture the most discriminating word phrases of
the partially decoded caption and a mapping that associates each phrase to the
relevant video frames - establishing this mapping allows semantically related
frames to be clustered, which reduces redundancy. In contrast to the prior
methods, the continuous feedback from decoded words enables the SGN to
dynamically update the video representation that adapts to the partially
decoded caption. Furthermore, a contrastive attention loss is proposed to
facilitate accurate alignment between a word phrase and video frames without
manual annotations. The SGN achieves state-of-the-art performances by
outperforming runner-up methods by a margin of 2.1%p and 2.4%p in a CIDEr-D
score on MSVD and MSR-VTT datasets, respectively. Extensive experiments
demonstrate the effectiveness and interpretability of the SGN.
- Abstract(参考訳): 本論文では,(1)部分的に符号化されたキャプションの単語フレーズを区別してビデオフレームをグループ化しようとするセマンティックグループネットワーク(Semantic Grouping Network, SGN)と呼ばれるビデオキャプション生成ネットワークを検討し,(2)セマンティックアライメント群を復号して次の単語を予測する。
連続するフレームがユニークな情報を提供する可能性は低いため、以前の手法は入力ビデオのみに基づいて繰り返し情報を破棄またはマージすることに重点を置いていた。
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムと、関連するビデオフレームに各フレーズを関連付けるマッピングを学習する。
従来の手法とは対照的に、復号された単語からの連続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
さらに、マニュアルアノテーションなしで単語句とビデオフレームの正確な整合を容易にするために、コントラストの注意損失が提案される。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアの2.1%pおよび2.4%pのマージンでランナーアップ方法を上回ることにより、最新のパフォーマンスを実現します。
広範な実験は、SGNの有効性と解釈可能性を示しています。
関連論文リスト
- Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。