論文の概要: The Influence of Audio on Video Memorability with an Audio Gestalt
Regulated Video Memorability System
- arxiv url: http://arxiv.org/abs/2104.11568v1
- Date: Fri, 23 Apr 2021 12:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 15:14:43.590164
- Title: The Influence of Audio on Video Memorability with an Audio Gestalt
Regulated Video Memorability System
- Title(参考訳): 音声ゲストタルト制御ビデオ記憶システムによる映像記憶性に及ぼす音声の影響
- Authors: Lorin Sweeney, Graham Healy, Alan F. Smeaton
- Abstract要約: 音声がハイレベルな音声機能に富んだビデオ認識の覚醒性を促進することが示唆される証拠を見いだす。
本稿では,映像の音声が短期的認識能力に与える影響を推定するために,音声ジェスチャーを用いたマルチモーダル深層学習に基づくレイトフュージョンシステムを提案する。
我々は,memento10kの短期映像記憶性データセットを用いた音声ゲシュタルトベースシステムの性能評価を行った。
- 参考スコア(独自算出の注目度): 1.8506048493564673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memories are the tethering threads that tie us to the world, and memorability
is the measure of their tensile strength. The threads of memory are spun from
fibres of many modalities, obscuring the contribution of a single fibre to a
thread's overall tensile strength. Unfurling these fibres is the key to
understanding the nature of their interaction, and how we can ultimately create
more meaningful media content. In this paper, we examine the influence of audio
on video recognition memorability, finding evidence to suggest that it can
facilitate overall video recognition memorability rich in high-level (gestalt)
audio features. We introduce a novel multimodal deep learning-based late-fusion
system that uses audio gestalt to estimate the influence of a given video's
audio on its overall short-term recognition memorability, and selectively
leverages audio features to make a prediction accordingly. We benchmark our
audio gestalt based system on the Memento10k short-term video memorability
dataset, achieving top-2 state-of-the-art results.
- Abstract(参考訳): 記憶は我々を世界と結びつける繋がる糸であり、記憶力はその引張強さの尺度である。
メモリのスレッドは、多くのモーダル性の繊維から発散し、スレッド全体の引張強さに対する単一のファイバーの寄与を隠蔽する。
これらの繊維を解き放つことが、それらの相互作用の性質を理解する鍵であり、最終的により意味のあるメディアコンテンツを作る方法である。
本稿では,音声が映像認識能力に与える影響について検討し,ハイレベルな音声特徴に富む映像認識能力の全体的な向上を示唆する証拠を見出した。
本稿では,映像の音声が短期的認識能力に与える影響を推定するために,音声を用いたマルチモーダル深層学習に基づくレイトフュージョンシステムを導入し,音声特徴を選択的に活用して予測を行う。
我々は,memento10kの短期映像記憶性データセットを用いた音声ゲシュタルトベースシステムの性能評価を行った。
関連論文リスト
- Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Leveraging Audio Gestalt to Predict Media Memorability [1.8506048493564673]
記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。
MediaEval 2020のPredicting Media Memorabilityタスクは、ビデオの記憶可能性を自動的に予測するタスクを設定することによって、メディアの記憶可能性の問題に対処することを目指しています。
我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。
論文 参考訳(メタデータ) (2020-12-31T14:50:42Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。