論文の概要: Multi-modal Ensemble Models for Predicting Video Memorability
- arxiv url: http://arxiv.org/abs/2102.01173v1
- Date: Mon, 1 Feb 2021 21:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 00:00:27.583700
- Title: Multi-modal Ensemble Models for Predicting Video Memorability
- Title(参考訳): ビデオ記憶性予測のためのマルチモーダルアンサンブルモデル
- Authors: Tony Zhao, Irving Fang, Jeffrey Kim, Gerald Friedland
- Abstract要約: 本研究は,メディアの記憶可能性を予測するための特徴として,抽出音声埋め込みの有効性と高一般化性を紹介する。
- 参考スコア(独自算出の注目度): 3.8367329188121824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling media memorability has been a consistent challenge in the field of
machine learning. The Predicting Media Memorability task in MediaEval2020 is
the latest benchmark among similar challenges addressing this topic. Building
upon techniques developed in previous iterations of the challenge, we developed
ensemble methods with the use of extracted video, image, text, and audio
features. Critically, in this work we introduce and demonstrate the efficacy
and high generalizability of extracted audio embeddings as a feature for the
task of predicting media memorability.
- Abstract(参考訳): メディアの記憶可能性のモデリングは、機械学習の分野で一貫した課題である。
MediaEval2020のPredicting Media Memorabilityタスクは、このトピックに対処する同様の課題の中で最新のベンチマークです。
課題の以前のイテレーションで開発された技術に基づいて,抽出した映像,画像,テキスト,音声特徴を用いてアンサンブル手法を開発した。
本研究は,メディアの記憶可能性を予測するための特徴として,抽出音声埋め込みの有効性と高一般化性を紹介する。
関連論文リスト
- Learning Unseen Modality Interaction [49.05368647729702]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
特徴射影モジュールを利用して、様々なモダリティの多次元的特徴を、豊富な情報を予約した共通空間に投影する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation [11.538915414185022]
本稿では,メディアコレクションからモンタージュをシームレスに検索,コンパイル,編集するためのインタラクティブツールとして,モンタージュ生成のためのタスク指向ダイアログを提案する。
大規模なメディアコレクションからシミュレーションしたメディアモンタージュに条件付き10kのダイアログを含む新しいデータセットC3(Conversational Content Creation)を収集する。
我々の最先端言語モデルの解析とベンチマークは、データセットに存在するマルチモーダルな課題を示している。
論文 参考訳(メタデータ) (2022-11-08T01:23:59Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。
実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文 参考訳(メタデータ) (2021-05-04T12:48:17Z) - Leveraging Audio Gestalt to Predict Media Memorability [1.8506048493564673]
記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。
MediaEval 2020のPredicting Media Memorabilityタスクは、ビデオの記憶可能性を自動的に予測するタスクを設定することによって、メディアの記憶可能性の問題に対処することを目指しています。
我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。
論文 参考訳(メタデータ) (2020-12-31T14:50:42Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。