Fugu-MT 論文翻訳(概要): Multi-modal Ensemble Models for Predicting Video Memorability

論文の概要: Multi-modal Ensemble Models for Predicting Video Memorability

arxiv url: http://arxiv.org/abs/2102.01173v1
Date: Mon, 1 Feb 2021 21:16:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 00:00:27.583700
Title: Multi-modal Ensemble Models for Predicting Video Memorability
Title（参考訳）: ビデオ記憶性予測のためのマルチモーダルアンサンブルモデル
Authors: Tony Zhao, Irving Fang, Jeffrey Kim, Gerald Friedland
Abstract要約: 本研究は,メディアの記憶可能性を予測するための特徴として,抽出音声埋め込みの有効性と高一般化性を紹介する。
参考スコア（独自算出の注目度）: 3.8367329188121824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modeling media memorability has been a consistent challenge in the field of machine learning. The Predicting Media Memorability task in MediaEval2020 is the latest benchmark among similar challenges addressing this topic. Building upon techniques developed in previous iterations of the challenge, we developed ensemble methods with the use of extracted video, image, text, and audio features. Critically, in this work we introduce and demonstrate the efficacy and high generalizability of extracted audio embeddings as a feature for the task of predicting media memorability.
Abstract（参考訳）: メディアの記憶可能性のモデリングは、機械学習の分野で一貫した課題である。 MediaEval2020のPredicting Media Memorabilityタスクは、このトピックに対処する同様の課題の中で最新のベンチマークです。課題の以前のイテレーションで開発された技術に基づいて,抽出した映像,画像,テキスト,音声特徴を用いてアンサンブル手法を開発した。本研究は,メディアの記憶可能性を予測するための特徴として,抽出音声埋め込みの有効性と高一般化性を紹介する。

関連論文リスト

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T06:46:19Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文参考訳（メタデータ） (2024-11-11T11:12:23Z)
The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 [27.30100635072298]
TALは、ビデオシーケンスを通して特定の時間間隔内でのアクションの識別と分類に焦点を当てている。我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張することにより、データ拡張手法を採用する。特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。
論文参考訳（メタデータ） (2024-10-08T01:07:21Z)
Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文参考訳（メタデータ） (2024-07-10T08:40:39Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文参考訳（メタデータ） (2022-10-22T14:45:29Z)
AntPivot: Livestream Highlight Detection via Hierarchical Attention Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文参考訳（メタデータ） (2022-06-10T05:58:11Z)
Self-attention fusion for audiovisual emotion recognition with incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文参考訳（メタデータ） (2022-01-26T18:04:29Z)
Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文参考訳（メタデータ） (2021-05-04T12:48:17Z)
Leveraging Audio Gestalt to Predict Media Memorability [1.8506048493564673]
記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。 MediaEval 2020のPredicting Media Memorabilityタスクは、ビデオの記憶可能性を自動的に予測するタスクを設定することによって、メディアの記憶可能性の問題に対処することを目指しています。我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。
論文参考訳（メタデータ） (2020-12-31T14:50:42Z)
VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文参考訳（メタデータ） (2020-10-12T02:19:16Z)
Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。 MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2017-08-31T11:18:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。