論文の概要: Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation
- arxiv url: http://arxiv.org/abs/2101.03966v1
- Date: Thu, 7 Jan 2021 14:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:25:21.963053
- Title: Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation
- Title(参考訳): 音声と映像の相関に基づく未分類映像列の視覚的相性予測
- Authors: Maryam Qamar Butt and Anis Ur Rahman
- Abstract要約: 本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Substantial research has been done in saliency modeling to develop
intelligent machines that can perceive and interpret their surroundings. But
existing models treat videos as merely image sequences excluding any audio
information, unable to cope with inherently varying content. Based on the
hypothesis that an audiovisual saliency model will be an improvement over
traditional saliency models for natural uncategorized videos, this work aims to
provide a generic audio/video saliency model augmenting a visual saliency map
with an audio saliency map computed by synchronizing low-level audio and visual
features. The proposed model was evaluated using different criteria against eye
fixations data for a publicly available DIEM video dataset. The results show
that the model outperformed two state-of-the-art visual saliency models.
- Abstract(参考訳): サリエンシー・モデリングでは、周囲の環境を知覚し、解釈できるインテリジェントな機械を開発するためにかなりの研究がなされている。
しかし既存のモデルでは、ビデオは音声情報を除く単なる画像シーケンスとして扱い、本質的に異なるコンテンツに対応できない。
本研究は,自然無分類ビデオの従来のサリエンシーモデルよりも,視聴覚サリエンシーモデルが改良されるという仮説に基づいて,低レベル音声と視覚特徴を同期させて計算した視聴覚サリエンシーマップと視覚サリエンシーマップを補完する汎用オーディオ/ビデオサリエンシーモデルを提供することを目標とする。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
その結果、このモデルは最先端の2つのビジュアル・サリエンシ・モデルより優れていた。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Speech Driven Video Editing via an Audio-Conditioned Diffusion Model [1.6763474728913939]
本稿では,デノナイズ拡散モデルを用いたエンドツーエンド音声駆動ビデオ編集手法を提案する。
音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。
我々の知る限りでは、音声駆動ビデオ編集のタスクにエンド・ツー・エンド・エンド・デノナイズ・ディノナイズ・ディフュージョン・モデルの適用可能性を実証し、検証する最初の試みである。
論文 参考訳(メタデータ) (2023-01-10T12:01:20Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。