論文の概要: Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning
- arxiv url: http://arxiv.org/abs/2401.02052v1
- Date: Mon, 2 Oct 2023 02:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:57:53.347250
- Title: Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning
- Title(参考訳): エンコーダデコーダを用いたビデオキャプションのためのLong Short-Term Memory(LSTM)モデル
- Authors: Sikiru Adewale, Tosin Ige, Bolanle Hafiz Matti
- Abstract要約: 本研究は,ビデオデータのテキストキャプションへの多対多マッピングを実現するために,エンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work demonstrates the implementation and use of an encoder-decoder model
to perform a many-to-many mapping of video data to text captions. The
many-to-many mapping occurs via an input temporal sequence of video frames to
an output sequence of words to form a caption sentence. Data preprocessing,
model construction, and model training are discussed. Caption correctness is
evaluated using 2-gram BLEU scores across the different splits of the dataset.
Specific examples of output captions were shown to demonstrate model generality
over the video temporal dimension. Predicted captions were shown to generalize
over video action, even in instances where the video scene changed
dramatically. Model architecture changes are discussed to improve sentence
grammar and correctness.
- Abstract(参考訳): 本研究は,ビデオデータからテキストキャプションへの多対多マッピングを実現するエンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
データ前処理、モデル構築、モデルトレーニングについて論じる。
キャプションの正確性は、データセットの異なる分割の2-gram BLEUスコアを用いて評価される。
出力キャプションの具体的な例は、ビデオ時間次元のモデル一般化を示すものである。
動画シーンが劇的に変化した場合でも、予測されたキャプションはビデオアクションを一般化する。
モデルアーキテクチャの変更は文の文法と正確性を改善するために議論される。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - Guidance Module Network for Video Captioning [19.84617164810336]
抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。
本稿では,過去および将来の単語に関連する単語をキャプションで生成するエンコーダデコーダモデルを促進するためのガイダンスモジュールを導入する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-20T14:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。