論文の概要: METEOR Guided Divergence for Video Captioning
- arxiv url: http://arxiv.org/abs/2212.10690v1
- Date: Tue, 20 Dec 2022 23:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:34:51.733809
- Title: METEOR Guided Divergence for Video Captioning
- Title(参考訳): ビデオキャプションのためのMETEOR Guided Divergence
- Authors: Daniel Lukas Rothenpieler and Shahin Amiriparian
- Abstract要約: 我々は,トークンの置換に耐性のあるビデオキャプションモデルをトレーニングするために,報酬誘導型KLディバージェンスを提案する。
内容完全文と文法音声文の生成におけるHRLエージェントの適合性について,BLEU3,BLEU4,METEORでそれぞれ4.91$,2.23$,10.80$を得た。
- 参考スコア(独自算出の注目度): 4.601294270277376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic video captioning aims for a holistic visual scene understanding. It
requires a mechanism for capturing temporal context in video frames and the
ability to comprehend the actions and associations of objects in a given
timeframe. Such a system should additionally learn to abstract video sequences
into sensible representations as well as to generate natural written language.
While the majority of captioning models focus solely on the visual inputs,
little attention has been paid to the audiovisual modality. To tackle this
issue, we propose a novel two-fold approach. First, we implement a
reward-guided KL Divergence to train a video captioning model which is
resilient towards token permutations. Second, we utilise a Bi-Modal
Hierarchical Reinforcement Learning (BMHRL) Transformer architecture to capture
long-term temporal dependencies of the input data as a foundation for our
hierarchical captioning module. Using our BMHRL, we show the suitability of the
HRL agent in the generation of content-complete and grammatically sound
sentences by achieving $4.91$, $2.23$, and $10.80$ in BLEU3, BLEU4, and METEOR
scores, respectively on the ActivityNet Captions dataset. Finally, we make our
BMHRL framework and trained models publicly available for users and developers
at https://github.com/d-rothen/bmhrl.
- Abstract(参考訳): 自動ビデオキャプションは、総合的な視覚シーン理解を目的としている。
ビデオフレーム内の時間的コンテキストをキャプチャするメカニズムと、所定の時間フレーム内のオブジェクトのアクションと関連を理解する能力が必要です。
このようなシステムは、ビデオシーケンスを意味のある表現に抽象化し、自然言語を生成することを学習する必要がある。
キャプションモデルの大半は視覚入力のみに焦点をあてているが、聴覚的モダリティにはほとんど注意が払われていない。
この問題に取り組むために,我々は新しい2次元アプローチを提案する。
まず,トークン順列に対して弾力性のある動画キャプションモデルを訓練するために,報奨付きklダイバージェンスを実装した。
第2に,bmhrl(bi-modal hierarchy reinforcement learning)トランスフォーマティブアーキテクチャを用いて,階層型キャプションモジュールの基盤として,入力データの長期的時間依存性をキャプチャする。
当社のbmhrlを用いて、アクティビティネットキャプションデータセット上でそれぞれ4.91$,2.23$,10.80$のbleu3,bleu4,meteorスコアを達成し、コンテンツ完全および文法的に発音された文の生成におけるhrlエージェントの適合性を示す。
最後に、BMHRLフレームワークとトレーニングされたモデルを、https://github.com/d-rothen/bmhrl.comで公開しています。
関連論文リスト
- Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。