論文の概要: STAViS: Spatio-Temporal AudioVisual Saliency Network
- arxiv url: http://arxiv.org/abs/2001.03063v2
- Date: Sun, 14 Jun 2020 18:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 05:06:36.066014
- Title: STAViS: Spatio-Temporal AudioVisual Saliency Network
- Title(参考訳): STAViS:時空間オーディオ映像配信ネットワーク
- Authors: Antigoni Tsiami, Petros Koutras and Petros Maragos
- Abstract要約: STAViSは視覚的サリエンシと聴覚機能を組み合わせたネットワークである。
音源を適切に局所化し、2つの塩分を融合させて最終的な塩分マップを得る。
提案手法を8種類の最先端ビジュアル・サリエンシ・モデルと比較した。
- 参考スコア(独自算出の注目度): 45.04894808904767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce STAViS, a spatio-temporal audiovisual saliency network that
combines spatio-temporal visual and auditory information in order to
efficiently address the problem of saliency estimation in videos. Our approach
employs a single network that combines visual saliency and auditory features
and learns to appropriately localize sound sources and to fuse the two
saliencies in order to obtain a final saliency map. The network has been
designed, trained end-to-end, and evaluated on six different databases that
contain audiovisual eye-tracking data of a large variety of videos. We compare
our method against 8 different state-of-the-art visual saliency models.
Evaluation results across databases indicate that our STAViS model outperforms
our visual only variant as well as the other state-of-the-art models in the
majority of cases. Also, the consistently good performance it achieves for all
databases indicates that it is appropriate for estimating saliency
"in-the-wild". The code is available at https://github.com/atsiami/STAViS.
- Abstract(参考訳): STAViSは時空間の視覚的情報と聴覚的情報を組み合わせた時空間の視覚的サリエンシネットワークであり,映像中のサリエンシ推定の問題を効果的に解決する。
本手法では,視覚的サリエンシーと聴覚的特徴を組み合わせた単一ネットワークを用いて音源の局所化と2つのサリエンシーの融合を行い,最終的なサリエンシーマップを得る。
このネットワークは、さまざまなビデオの視線追跡データを含む6つの異なるデータベースで設計、訓練され、評価されている。
本手法を8種類の視覚塩分モデルと比較した。
データベース間の評価結果から、STAViSモデルは、ほとんどのケースにおいて、他の最先端モデルと同様に、視覚のみのバリエーションよりも優れています。
また、それがすべてのデータベースに対して一貫して達成する優れたパフォーマンスは、サリエンシを"夢中"に見積もるのに適切であることを示している。
コードはhttps://github.com/atsiami/STAViS.comで公開されている。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation [0.0]
本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
論文 参考訳(メタデータ) (2021-01-07T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。