論文の概要: Syntax Customized Video Captioning by Imitating Exemplar Sentences
- arxiv url: http://arxiv.org/abs/2112.01062v1
- Date: Thu, 2 Dec 2021 09:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 01:30:24.500332
- Title: Syntax Customized Video Captioning by Imitating Exemplar Sentences
- Title(参考訳): 例文を模倣した構文カスタマイズビデオキャプション
- Authors: Yitian Yuan, Lin Ma, Wenwu Zhu
- Abstract要約: SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
- 参考スコア(独自算出の注目度): 90.98221715705435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the diversity of sentences to describe video contents is an
important problem arising in recent video captioning research. In this paper,
we explore this problem from a novel perspective of customizing video captions
by imitating exemplar sentence syntaxes. Specifically, given a video and any
syntax-valid exemplar sentence, we introduce a new task of Syntax Customized
Video Captioning (SCVC) aiming to generate one caption which not only
semantically describes the video contents but also syntactically imitates the
given exemplar sentence. To tackle the SCVC task, we propose a novel video
captioning model, where a hierarchical sentence syntax encoder is firstly
designed to extract the syntactic structure of the exemplar sentence, then a
syntax conditioned caption decoder is devised to generate the syntactically
structured caption expressing video semantics. As there is no available syntax
customized groundtruth video captions, we tackle such a challenge by proposing
a new training strategy, which leverages the traditional pairwise video
captioning data and our collected exemplar sentences to accomplish the model
learning. Extensive experiments, in terms of semantic, syntactic, fluency, and
diversity evaluations, clearly demonstrate our model capability to generate
syntax-varied and semantics-coherent video captions that well imitate different
exemplar sentences with enriched diversities.
- Abstract(参考訳): 近年のビデオキャプション研究において,映像内容記述のための文の多様性向上が問題となっている。
本稿では,映像の字幕を模倣して字幕をカスタマイズする新しい視点からこの問題を考察する。
具体的には,映像の内容が意味的に記述されるだけでなく,その文章を構文的に模倣する一つのキャプションを生成するために,構文カスタマイズビデオキャプション(scvc)という新しいタスクを導入する。
scvcタスクに取り組むために,まず,階層的文構文エンコーダを,例文の構文構造を抽出するように設計し,その後,構文条件付き字幕デコーダを考案し,映像意味を表現した構文的構造化字幕を生成する,新しいビデオキャプションモデルを提案する。
構文をカスタマイズした基礎的なビデオキャプションが存在しないため,従来の一対の動画キャプションデータと収集した模範文を活用して,モデル学習を実現する新たなトレーニング戦略を提案する。
セマンティクス,構文,フラレンシー,多様性評価の面での広範な実験により,多種多様な類似文を模倣した構文変化とセマンティクスコヒーレントなビデオキャプションを生成するモデル能力が明らかに示された。
関連論文リスト
- Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。