論文の概要: SEM-POS: Grammatically and Semantically Correct Video Captioning
- arxiv url: http://arxiv.org/abs/2303.14829v2
- Date: Tue, 4 Apr 2023 13:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 17:32:50.463029
- Title: SEM-POS: Grammatically and Semantically Correct Video Captioning
- Title(参考訳): SEM-POS: 文法的にも意味的にも正しいビデオキャプション
- Authors: Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin
Mustafa
- Abstract要約: 音声の異なる部分から特徴を符号化して融合するGLFB(Global-Local Fusion Block)を備えた,新しいグローバルローカル核融合ネットワークを導入する。
POSブロックの監視には、'determinant + subject'、'auxiliary verb'、'verb'、'determinant + object'という、異なるPOSコンポーネントの新たな組み合わせを使用します。
POSブロックと共に、新しいグローバルローカルな融合ネットワークは、視覚的特徴を言語記述と整合させ、文法的かつ意味論的に正しいキャプションを生成するのに役立つ。
- 参考スコア(独自算出の注目度): 30.43574790898102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating grammatically and semantically correct captions in video
captioning is a challenging task. The captions generated from the existing
methods are either word-by-word that do not align with grammatical structure or
miss key information from the input videos. To address these issues, we
introduce a novel global-local fusion network, with a Global-Local Fusion Block
(GLFB) that encodes and fuses features from different parts of speech (POS)
components with visual-spatial features. We use novel combinations of different
POS components - 'determinant + subject', 'auxiliary verb', 'verb', and
'determinant + object' for supervision of the POS blocks - Det + Subject, Aux
Verb, Verb, and Det + Object respectively. The novel global-local fusion
network together with POS blocks helps align the visual features with language
description to generate grammatically and semantically correct captions.
Extensive qualitative and quantitative experiments on benchmark MSVD and MSRVTT
datasets demonstrate that the proposed approach generates more grammatically
and semantically correct captions compared to the existing methods, achieving
the new state-of-the-art. Ablations on the POS blocks and the GLFB demonstrate
the impact of the contributions on the proposed method.
- Abstract(参考訳): ビデオキャプションにおいて、文法的かつ意味的に正しいキャプションを生成することは難しい課題である。
既存の方法から生成されたキャプションは、文法構造と一致しない単語単位か、入力されたビデオからのキー情報を見落としている。
これらの問題に対処するために,視覚空間的特徴を持つ音声(POS)の異なる部分から特徴を符号化して融合するGlobal-Local Fusion Block (GLFB)を導入した,新しいグローバルローカルフュージョンネットワークを導入する。
POSブロック - Det + Subject, Aux Verb, Verb, Det + Object の監視には 'determinant + subject' と 'auxiliary verb' と 'verb' と 'determinant + object' という,異なるPOSコンポーネントの新たな組み合わせを使用します。
POSブロックと共に新しいグローバルローカル融合ネットワークは、視覚特徴を言語記述と整合させ、文法的かつ意味論的に正しいキャプションを生成する。
ベンチマークMSVDおよびMSRVTTデータセットの大規模定性的・定量的実験により,提案手法が既存の手法に比べて文法的・意味論的に正しい字幕を生成することを示す。
posブロックとglfb上のアブレーションは、提案手法に対する貢献の影響を示している。
関連論文リスト
- Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - Semantic Grouping Network for Video Captioning [11.777063873936598]
SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムを学習する。
復号された単語からの継続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。
SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアにおいて、2.1%pと2.4%pのマージンでランナアップ法を上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-01T13:40:56Z) - ActBERT: Learning Global-Local Video-Text Representations [74.29748531654474]
本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
論文 参考訳(メタデータ) (2020-11-14T07:14:08Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - More Grounded Image Captioning by Distilling Image-Text Matching Model [56.79895670335411]
本研究では,より基礎的な画像キャプションのための効果的な知識蒸留法として,POS強化画像テキストマッチングモデル(SCAN)を提案する。
1) 文と画像が与えられた場合、POS-SCANはSCANよりも正確にオブジェクトをグラウンドできる; 2) POS-SCANはキャプタの視覚的注意モジュールの単語領域アラインメント正規化として機能する。
論文 参考訳(メタデータ) (2020-04-01T12:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。