論文の概要: Guidance Module Network for Video Captioning
- arxiv url: http://arxiv.org/abs/2012.10930v1
- Date: Sun, 20 Dec 2020 14:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:41:20.105970
- Title: Guidance Module Network for Video Captioning
- Title(参考訳): ビデオキャプションのための誘導モジュールネットワーク
- Authors: Xiao Zhang, Chunsheng Liu, Faliang Chang
- Abstract要約: 抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。
本稿では,過去および将来の単語に関連する単語をキャプションで生成するエンコーダデコーダモデルを促進するためのガイダンスモジュールを導入する新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 19.84617164810336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning has been a challenging and significant task that describes
the content of a video clip in a single sentence. The model of video captioning
is usually an encoder-decoder. We find that the normalization of extracted
video features can improve the final performance of video captioning.
Encoder-decoder model is usually trained using teacher-enforced strategies to
make the prediction probability of each word close to a 0-1 distribution and
ignore other words. In this paper, we present a novel architecture which
introduces a guidance module to encourage the encoder-decoder model to generate
words related to the past and future words in a caption. Based on the
normalization and guidance module, guidance module net (GMNet) is built.
Experimental results on commonly used dataset MSVD show that proposed GMNet can
improve the performance of the encoder-decoder model on video captioning tasks.
- Abstract(参考訳): ビデオキャプションは、ビデオクリップの内容を単一の文で記述する、困難で重要なタスクである。
ビデオキャプションのモデルは、通常エンコーダデコーダである。
抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。
エンコーダ・デコーダモデルは通常、教師強化戦略を用いて訓練され、各単語の確率を0-1分布に近づけ、他の単語を無視する。
本稿では,エンコーダ・デコーダモデルを用いて,過去と未来に関連する単語をキャプション内で生成するためのガイダンスモジュールを提案する。
正規化および誘導モジュールに基づいて、ガイダンスモジュールネット(gmnet)が構築される。
一般的なデータセットMSVDによる実験結果から、GMNetの提案により、ビデオキャプションタスクにおけるエンコーダデコーダモデルの性能が向上することが示された。
関連論文リスト
- Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023) [0.0]
本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。
LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。
ビデオキャプションのモデルの有効性をBLEU, METOR, ROUGEで実証し, その性能評価を行った。
論文 参考訳(メタデータ) (2023-12-12T16:39:12Z) - Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning [0.0]
本研究は,ビデオデータのテキストキャプションへの多対多マッピングを実現するために,エンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
論文 参考訳(メタデータ) (2023-10-02T02:32:26Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training [112.91603911837436]
GIFデータセットのオートキャプションは、ジェネリックビデオ理解のための新しい大規模事前トレーニングデータセットである。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって作成される。
論文 参考訳(メタデータ) (2020-07-05T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。