Fugu-MT 論文翻訳(概要): A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key!

論文の概要: A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key!

arxiv url: http://arxiv.org/abs/2206.13390v1
Date: Mon, 20 Jun 2022 07:25:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-04 01:22:23.277079
Title: A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key!
Title（参考訳）: 聴覚情報を用いたビデオサリエンシー検出に関する包括的調査:聴覚と視覚の一貫性が鍵である!
Authors: Chenglizhao Chen and Mengke Song and Wenfeng Song and Li Guo and Muwei Jian
Abstract要約: ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
参考スコア（独自算出の注目度）: 25.436683033432086
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video saliency detection (VSD) aims at fast locating the most attractive objects/things/patterns in a given video clip. Existing VSD-related works have mainly relied on the visual system but paid less attention to the audio aspect, while, actually, our audio system is the most vital complementary part to our visual system. Also, audio-visual saliency detection (AVSD), one of the most representative research topics for mimicking human perceptual mechanisms, is currently in its infancy, and none of the existing survey papers have touched on it, especially from the perspective of saliency detection. Thus, the ultimate goal of this paper is to provide an extensive review to bridge the gap between audio-visual fusion and saliency detection. In addition, as another highlight of this review, we have provided a deep insight into key factors which could directly determine the performances of AVSD deep models, and we claim that the audio-visual consistency degree (AVC) -- a long-overlooked issue, can directly influence the effectiveness of using audio to benefit its visual counterpart when performing saliency detection. Moreover, in order to make the AVC issue more practical and valuable for future followers, we have newly equipped almost all existing publicly available AVSD datasets with additional frame-wise AVC labels. Based on these upgraded datasets, we have conducted extensive quantitative evaluations to ground our claim on the importance of AVC in the AVSD task. In a word, both our ideas and new sets serve as a convenient platform with preliminaries and guidelines, all of which are very potential to facilitate future works in promoting state-of-the-art (SOTA) performance further.
Abstract（参考訳）: video saliency detection (vsd)は、ビデオクリップ内の最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。既存のVSD関連の作業は主に視覚システムに依存しているが、オーディオの側面にはあまり注意を払わなかった。また、人間の知覚機構を模倣する最も代表的な研究テーマの1つであるAVSD(Audio-visual saliency Detection)は、その初期段階にあり、特に唾液検出の観点からは、既存の調査論文では触れられていない。そこで本論文の最終的な目標は,視聴覚融合と塩分検出のギャップを埋めるための広範なレビューを提供することである。さらに、このレビューの別のハイライトとして、AVSDディープモデルの性能を直接決定できる重要な要因について深い洞察を提供し、長年見過ごされてきた問題であるオーディオ・視覚整合度(AVC)が、唾液度検出を行う際の視覚的効果に直接的な影響を与えると主張している。さらに、AVC問題を将来のフォロワーにとってより実用的で価値の高いものにするために、既存のAVSDデータセットにフレームワイドのAVCラベルを追加した。これらの改良データセットに基づいて,avsdタスクにおけるavcの重要性を根拠として,広範な定量的評価を行った。言い換えれば、私たちのアイデアと新しいセットは、予備とガイドラインを備えた便利なプラットフォームとして機能し、これらすべてが、最先端(SOTA)のパフォーマンスをさらに促進するための将来の作業を促進する非常に有望なものです。

関連論文リスト

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文参考訳（メタデータ） (2024-08-25T04:56:08Z)
How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model [50.15552768350462]
本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。 AVS-ODVデータベースに基づく新たなベンチマークを構築した。
論文参考訳（メタデータ） (2024-08-10T02:45:46Z)
Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and Baseline [6.676841280436392]
ショートフォームビデオ(SV)が普及すると、SVに対してビデオ感情分析(VEA)を行う必要がある。 SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。本稿では,ビデオトランスフォーマを用いた音声-視覚ベースラインAV-CANetを提案する。
論文参考訳（メタデータ） (2023-11-29T03:24:30Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。 FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文参考訳（メタデータ） (2022-10-04T03:42:36Z)
AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文参考訳（メタデータ） (2021-11-29T11:02:41Z)
APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。 APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。 APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文参考訳（メタデータ） (2021-06-03T08:16:42Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。