論文の概要: Controllable Video Captioning with an Exemplar Sentence
- arxiv url: http://arxiv.org/abs/2112.01073v1
- Date: Thu, 2 Dec 2021 09:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 00:45:52.740399
- Title: Controllable Video Captioning with an Exemplar Sentence
- Title(参考訳): 例文による制御可能なビデオキャプション
- Authors: Yitian Yuan, Lin Ma, Jingwen Wang, Wenwu Zhu
- Abstract要約: 本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
- 参考スコア(独自算出の注目度): 89.78812365216983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate a novel and challenging task, namely
controllable video captioning with an exemplar sentence. Formally, given a
video and a syntactically valid exemplar sentence, the task aims to generate
one caption which not only describes the semantic contents of the video, but
also follows the syntactic form of the given exemplar sentence. In order to
tackle such an exemplar-based video captioning task, we propose a novel Syntax
Modulated Caption Generator (SMCG) incorporated in an
encoder-decoder-reconstructor architecture. The proposed SMCG takes video
semantic representation as an input, and conditionally modulates the gates and
cells of long short-term memory network with respect to the encoded syntactic
information of the given exemplar sentence. Therefore, SMCG is able to control
the states for word prediction and achieve the syntax customized caption
generation. We conduct experiments by collecting auxiliary exemplar sentences
for two public video captioning datasets. Extensive experimental results
demonstrate the effectiveness of our approach on generating syntax controllable
and semantic preserved video captions. By providing different exemplar
sentences, our approach is capable of producing different captions with various
syntactic structures, thus indicating a promising way to strengthen the
diversity of video captioning.
- Abstract(参考訳): 本稿では,映像キャプションを模範文で制御可能な,新規で困難な課題について検討する。
正式には、ビデオと構文上有効な例文が与えられた場合、このタスクは、ビデオの意味的内容を記述するだけでなく、与えられた例文の構文形式に従う1つのキャプションを生成することを目的としている。
そこで本研究では,エンコーダ-デコーダ-リコンストラクタアーキテクチャに組み込まれた新しい構文変調キャプション生成器(smcg)を提案する。
提案したSMCGは、映像意味表現を入力として取り、与えられた先行文の符号化構文情報に対して、長い短期記憶ネットワークのゲートとセルを条件的に変調する。
そのため、SMCGは単語予測の状態を制御し、構文カスタマイズキャプション生成を実現することができる。
2つの公開ビデオキャプションデータセットに対して補助的な例文を収集して実験を行う。
広範な実験結果から,構文制御および意味保存ビデオキャプション生成における提案手法の有効性が示された。
異なる例文を提供することにより,様々な構文構造を持つ異なるキャプションを生成できるため,ビデオキャプションの多様性を高めるための有望な方法を示す。
関連論文リスト
- Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Guidance Module Network for Video Captioning [19.84617164810336]
抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。
本稿では,過去および将来の単語に関連する単語をキャプションで生成するエンコーダデコーダモデルを促進するためのガイダンスモジュールを導入する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-20T14:02:28Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。