論文の概要: MART: Memory-Augmented Recurrent Transformer for Coherent Video
Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2005.05402v1
- Date: Mon, 11 May 2020 20:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:15:57.937652
- Title: MART: Memory-Augmented Recurrent Transformer for Coherent Video
Paragraph Captioning
- Title(参考訳): MART:コヒーレントビデオパラグラフキャプションのためのメモリ拡張リカレントトランス
- Authors: Jie Lei, Liwei Wang, Yelong Shen, Dong Yu, Tamara L. Berg, Mohit
Bansal
- Abstract要約: MART(Memory-Augmented Recurrent Transformer)と呼ばれる新しい手法を提案する。
MARTはメモリモジュールを使用してトランスフォーマーアーキテクチャを拡張する。
MARTはベースライン法よりもコヒーレントで繰り返しない段落を生成する。
- 参考スコア(独自算出の注目度): 128.36951818335046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating multi-sentence descriptions for videos is one of the most
challenging captioning tasks due to its high requirements for not only visual
relevance but also discourse-based coherence across the sentences in the
paragraph. Towards this goal, we propose a new approach called Memory-Augmented
Recurrent Transformer (MART), which uses a memory module to augment the
transformer architecture. The memory module generates a highly summarized
memory state from the video segments and the sentence history so as to help
better prediction of the next sentence (w.r.t. coreference and repetition
aspects), thus encouraging coherent paragraph generation. Extensive
experiments, human evaluations, and qualitative analyses on two popular
datasets ActivityNet Captions and YouCookII show that MART generates more
coherent and less repetitive paragraph captions than baseline methods, while
maintaining relevance to the input video events. All code is available
open-source at: https://github.com/jayleicn/recurrent-transformer
- Abstract(参考訳): ビデオの多文記述の生成は、視覚的関連性だけでなく、段落内の文間の談話に基づくコヒーレンスも要求されるため、最も困難なキャプションタスクの1つである。
本研究の目的は,メモリモジュールを用いてトランスアーキテクチャを増強するメモリ拡張リカレントトランス (MART) と呼ばれる新しい手法を提案することである。
メモリモジュールは、ビデオセグメントと文履歴から高度に要約されたメモリ状態を生成し、次の文(w.r.t. coreference and repetition aspects)の予測に役立つようにし、コヒーレント段落生成を促進する。
ActivityNet Captions と YouCookII は、MART が入力されたビデオイベントとの関係を維持しながら、ベースラインの手法よりも一貫性と反復性の低い段落を生成することを示した。
すべてのコードは、https://github.com/jayleicn/recurrent-transformer.comで公開されている。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Implicit Memory Transformer for Computationally Efficient Simultaneous
Speech Translation [0.20305676256390928]
本稿では,新たな左コンテキスト手法により暗黙的にメモリを保持するImplicit Memory Transformerを提案する。
MuST-Cデータセットの実験では、Implicit Memory Transformerがエンコーダのフォワードパスにかなりのスピードアップを提供することが示された。
論文 参考訳(メタデータ) (2023-07-03T22:20:21Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval [155.32369959647437]
クロスモーダルなビデオテキスト検索は、視覚と言語分野において難しい課題である。
このタスクの既存のアプローチはすべて、ハードネガティブなランキング損失を通じてエンコーディングモデルを設計する方法に重点を置いている。
ビデオテキスト検索のための新しいメモリ強化埋め込み学習(MEEL)法を提案する。
論文 参考訳(メタデータ) (2021-03-29T15:15:09Z) - Exploration of Visual Features and their weighted-additive fusion for
Video Captioning [0.7388859384645263]
ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。
本研究では,最先端の畳み込みニューラルネットワークから派生した様々な視覚特徴表現を用いて,高レベルの意味的文脈をキャプチャする能力について検討する。
論文 参考訳(メタデータ) (2021-01-14T07:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。