論文の概要: Video Captioning with Guidance of Multimodal Latent Topics
- arxiv url: http://arxiv.org/abs/1708.09667v3
- Date: Tue, 14 Feb 2023 17:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:59:06.988079
- Title: Video Captioning with Guidance of Multimodal Latent Topics
- Title(参考訳): マルチモーダル潜在トピックの指導によるビデオキャプション
- Authors: Shizhe Chen, Jia Chen, Qin Jin, Alexander Hauptmann
- Abstract要約: 我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 123.5255241103578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The topic diversity of open-domain videos leads to various vocabularies and
linguistic expressions in describing video contents, and therefore, makes the
video captioning task even more challenging. In this paper, we propose an
unified caption framework, M&M TGM, which mines multimodal topics in
unsupervised fashion from data and guides the caption decoder with these
topics. Compared to pre-defined topics, the mined multimodal topics are more
semantically and visually coherent and can reflect the topic distribution of
videos better. We formulate the topic-aware caption generation as a multi-task
learning problem, in which we add a parallel task, topic prediction, in
addition to the caption task. For the topic prediction task, we use the mined
topics as the teacher to train a student topic prediction model, which learns
to predict the latent topics from multimodal contents of videos. The topic
prediction provides intermediate supervision to the learning process. As for
the caption task, we propose a novel topic-aware decoder to generate more
accurate and detailed video descriptions with the guidance from latent topics.
The entire learning procedure is end-to-end and it optimizes both tasks
simultaneously. The results from extensive experiments conducted on the MSR-VTT
and Youtube2Text datasets demonstrate the effectiveness of our proposed model.
M&M TGM not only outperforms prior state-of-the-art methods on multiple
evaluation metrics and on both benchmark datasets, but also achieves better
generalization ability.
- Abstract(参考訳): オープンドメインビデオのトピックの多様性は、ビデオ内容を記述する際に様々な語彙や言語表現をもたらすため、ビデオキャプションタスクをさらに困難にする。
本稿では、データから教師なしの方法でマルチモーダルトピックをマイニングし、これらのトピックでキャプションデコーダをガイドする統合キャプションフレームワークM&M TGMを提案する。
事前定義されたトピックと比較して、マイニングされたマルチモーダルなトピックは、より意味的かつ視覚的に一貫性があり、ビデオのトピック分布をより反映することができる。
トピック対応キャプション生成をマルチタスク学習問題として定式化し,キャプションタスクに加えて並列タスク,トピック予測を付加する。
トピック予測タスクでは,ビデオのマルチモーダルコンテンツから潜在トピックを予測する学生トピック予測モデルを学習するために,マイニングされたトピックを教師として使用する。
トピック予測は、学習プロセスの中間的な監視を提供する。
キャプションタスクでは、潜在トピックからのガイダンスにより、より正確で詳細なビデオ記述を生成するための、新しいトピック認識デコーダを提案する。
学習手順全体がエンドツーエンドであり、両方のタスクを同時に最適化する。
msr-vttおよびyoutube2textデータセットを用いた広範な実験の結果,提案モデルの有効性が示された。
M&M TGMは、複数の評価指標と両方のベンチマークデータセットで先行した最先端の手法よりも優れており、より優れた一般化能力も達成している。
関連論文リスト
- A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos [4.189643331553923]
本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
論文 参考訳(メタデータ) (2020-12-08T13:37:40Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。