Fugu-MT 論文翻訳(概要): Leveraging Audio Gestalt to Predict Media Memorability

論文の概要: Leveraging Audio Gestalt to Predict Media Memorability

arxiv url: http://arxiv.org/abs/2012.15635v1
Date: Thu, 31 Dec 2020 14:50:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 23:36:18.395635
Title: Leveraging Audio Gestalt to Predict Media Memorability
Title（参考訳）: オーディオゲシュタルトによるメディアの記憶可能性予測
Authors: Lorin Sweeney, Graham Healy, Alan F. Smeaton
Abstract要約: 記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。 MediaEval 2020のPredicting Media Memorabilityタスクは、ビデオの記憶可能性を自動的に予測するタスクを設定することによって、メディアの記憶可能性の問題に対処することを目指しています。我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。
参考スコア（独自算出の注目度）: 1.8506048493564673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memorability determines what evanesces into emptiness, and what worms its way into the deepest furrows of our minds. It is the key to curating more meaningful media content as we wade through daily digital torrents. The Predicting Media Memorability task in MediaEval 2020 aims to address the question of media memorability by setting the task of automatically predicting video memorability. Our approach is a multimodal deep learning-based late fusion that combines visual, semantic, and auditory features. We used audio gestalt to estimate the influence of the audio modality on overall video memorability, and accordingly inform which combination of features would best predict a given video's memorability scores.
Abstract（参考訳）: 記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。毎日のデジタルトレントを歩きながら、より意味のあるメディアコンテンツをキュレートする鍵だ。 MediaEval 2020の予測メディア記憶可能性タスクは、自動的にビデオ記憶可能性を予測するタスクを設定することで、メディア記憶可能性の問題に対処することを目的としている。我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。音声ジェスチャーを用いて,音声のモダリティがビデオ全体の記憶可能性に与える影響を推定し,どの特徴の組み合わせがビデオの記憶可能性スコアを最もよく予測するかを知らせた。

関連論文リスト

Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [33.114796739109075]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文参考訳（メタデータ） (2025-08-06T09:58:43Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Learning to Highlight Audio by Watching Movies [37.9846964966927]
本稿では,映像が案内する適切なハイライト効果を実現するために音声を変換することを目的とした,視覚誘導型音声強調機能を提案する。私たちのモデルをトレーニングするために、映画に見られる巧妙なオーディオとビデオ制作を活用する、泥だらけのミックスデータセットも導入しました。定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
論文参考訳（メタデータ） (2025-05-17T22:03:57Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
Missingness-resilient Video-enhanced Multimodal Disfluency Detection [3.3281516035025285]
本稿では,利用可能な映像データと音声を併用したマルチモーダル・ディフルエンシ検出手法を提案する。私たちのレジリエントなデザインは、推論中にビデオのモダリティが欠落することがある現実世界のシナリオに対応しています。 5つのディフルエンシ検出タスクにわたる実験において、我々の統合マルチモーダルアプローチは、オーディオのみのアンモダル法よりも顕著に優れている。
論文参考訳（メタデータ） (2024-06-11T05:47:16Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文参考訳（メタデータ） (2024-04-08T05:19:28Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Predicting emotion from music videos: exploring the relative contribution of visual and auditory information to affective responses [0.0]
本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)を紹介する。データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
論文参考訳（メタデータ） (2022-02-19T07:36:43Z)
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文参考訳（メタデータ） (2022-01-07T19:00:21Z)
The Influence of Audio on Video Memorability with an Audio Gestalt Regulated Video Memorability System [1.8506048493564673]
音声がハイレベルな音声機能に富んだビデオ認識の覚醒性を促進することが示唆される証拠を見いだす。本稿では,映像の音声が短期的認識能力に与える影響を推定するために,音声ジェスチャーを用いたマルチモーダル深層学習に基づくレイトフュージョンシステムを提案する。我々は,memento10kの短期映像記憶性データセットを用いた音声ゲシュタルトベースシステムの性能評価を行った。
論文参考訳（メタデータ） (2021-04-23T12:53:33Z)
Multi-modal Ensemble Models for Predicting Video Memorability [3.8367329188121824]
本研究は,メディアの記憶可能性を予測するための特徴として,抽出音声埋め込みの有効性と高一般化性を紹介する。
論文参考訳（メタデータ） (2021-02-01T21:16:52Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)
Audio Summarization with Audio Features and Probability Distribution Divergence [1.0587107940165885]
音声特徴量と分布のばらつきの確率に基づく音声要約に着目した。本手法は,抽出的要約手法に基づいて,時間しきい値に達するまで最も関連性の高いセグメントを選択することを目的としている。
論文参考訳（メタデータ） (2020-01-20T13:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。