論文の概要: A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key!
- arxiv url: http://arxiv.org/abs/2206.13390v1
- Date: Mon, 20 Jun 2022 07:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 01:22:23.277079
- Title: A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key!
- Title(参考訳): 聴覚情報を用いたビデオサリエンシー検出に関する包括的調査:聴覚と視覚の一貫性が鍵である!
- Authors: Chenglizhao Chen and Mengke Song and Wenfeng Song and Li Guo and Muwei
Jian
- Abstract要約: ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
- 参考スコア(独自算出の注目度): 25.436683033432086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video saliency detection (VSD) aims at fast locating the most attractive
objects/things/patterns in a given video clip. Existing VSD-related works have
mainly relied on the visual system but paid less attention to the audio aspect,
while, actually, our audio system is the most vital complementary part to our
visual system. Also, audio-visual saliency detection (AVSD), one of the most
representative research topics for mimicking human perceptual mechanisms, is
currently in its infancy, and none of the existing survey papers have touched
on it, especially from the perspective of saliency detection. Thus, the
ultimate goal of this paper is to provide an extensive review to bridge the gap
between audio-visual fusion and saliency detection. In addition, as another
highlight of this review, we have provided a deep insight into key factors
which could directly determine the performances of AVSD deep models, and we
claim that the audio-visual consistency degree (AVC) -- a long-overlooked
issue, can directly influence the effectiveness of using audio to benefit its
visual counterpart when performing saliency detection. Moreover, in order to
make the AVC issue more practical and valuable for future followers, we have
newly equipped almost all existing publicly available AVSD datasets with
additional frame-wise AVC labels. Based on these upgraded datasets, we have
conducted extensive quantitative evaluations to ground our claim on the
importance of AVC in the AVSD task. In a word, both our ideas and new sets
serve as a convenient platform with preliminaries and guidelines, all of which
are very potential to facilitate future works in promoting state-of-the-art
(SOTA) performance further.
- Abstract(参考訳): video saliency detection (vsd)は、ビデオクリップ内の最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
既存のVSD関連の作業は主に視覚システムに依存しているが、オーディオの側面にはあまり注意を払わなかった。
また、人間の知覚機構を模倣する最も代表的な研究テーマの1つであるAVSD(Audio-visual saliency Detection)は、その初期段階にあり、特に唾液検出の観点からは、既存の調査論文では触れられていない。
そこで本論文の最終的な目標は,視聴覚融合と塩分検出のギャップを埋めるための広範なレビューを提供することである。
さらに、このレビューの別のハイライトとして、AVSDディープモデルの性能を直接決定できる重要な要因について深い洞察を提供し、長年見過ごされてきた問題であるオーディオ・視覚整合度(AVC)が、唾液度検出を行う際の視覚的効果に直接的な影響を与えると主張している。
さらに、AVC問題を将来のフォロワーにとってより実用的で価値の高いものにするために、既存のAVSDデータセットにフレームワイドのAVCラベルを追加した。
これらの改良データセットに基づいて,avsdタスクにおけるavcの重要性を根拠として,広範な定量的評価を行った。
言い換えれば、私たちのアイデアと新しいセットは、予備とガイドラインを備えた便利なプラットフォームとして機能し、これらすべてが、最先端(SOTA)のパフォーマンスをさらに促進するための将来の作業を促進する非常に有望なものです。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual
Representation Models [94.36745306051202]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments [5.28539620288341]
AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
論文 参考訳(メタデータ) (2020-11-09T11:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。