論文の概要: Semantic Grouping Network for Video Captioning
- arxiv url: http://arxiv.org/abs/2102.00831v1
- Date: Mon, 1 Feb 2021 13:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 08:00:59.122098
- Title: Semantic Grouping Network for Video Captioning
- Title(参考訳): ビデオキャプションのためのセマンティックグループネットワーク
- Authors: Hobin Ryu, Sunghun Kang, Haeyong Kang, and Chang D. Yoo
- Abstract要約: SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 11.777063873936598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers a video caption generating network referred to as
Semantic Grouping Network (SGN) that attempts (1) to group video frames with
discriminating word phrases of partially decoded caption and then (2) to decode
those semantically aligned groups in predicting the next word. As consecutive
frames are not likely to provide unique information, prior methods have focused
on discarding or merging repetitive information based only on the input video.
The SGN learns an algorithm to capture the most discriminating word phrases of
the partially decoded caption and a mapping that associates each phrase to the
relevant video frames - establishing this mapping allows semantically related
frames to be clustered, which reduces redundancy. In contrast to the prior
methods, the continuous feedback from decoded words enables the SGN to
dynamically update the video representation that adapts to the partially
decoded caption. Furthermore, a contrastive attention loss is proposed to
facilitate accurate alignment between a word phrase and video frames without
manual annotations. The SGN achieves state-of-the-art performances by
outperforming runner-up methods by a margin of 2.1%p and 2.4%p in a CIDEr-D
score on MSVD and MSR-VTT datasets, respectively. Extensive experiments
demonstrate the effectiveness and interpretability of the SGN.
- Abstract(参考訳): 本論文では,(1)部分的に符号化されたキャプションの単語フレーズを区別してビデオフレームをグループ化しようとするセマンティックグループネットワーク(Semantic Grouping Network, SGN)と呼ばれるビデオキャプション生成ネットワークを検討し,(2)セマンティックアライメント群を復号して次の単語を予測する。
連続するフレームがユニークな情報を提供する可能性は低いため、以前の手法は入力ビデオのみに基づいて繰り返し情報を破棄またはマージすることに重点を置いていた。
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムと、関連するビデオフレームに各フレーズを関連付けるマッピングを学習する。
従来の手法とは対照的に、復号された単語からの連続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
さらに、マニュアルアノテーションなしで単語句とビデオフレームの正確な整合を容易にするために、コントラストの注意損失が提案される。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアの2.1%pおよび2.4%pのマージンでランナーアップ方法を上回ることにより、最新のパフォーマンスを実現します。
広範な実験は、SGNの有効性と解釈可能性を示しています。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。