論文の概要: Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction
- arxiv url: http://arxiv.org/abs/2109.08371v1
- Date: Fri, 17 Sep 2021 06:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 22:08:46.723979
- Title: Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction
- Title(参考訳): 視覚的注意予測のためのバイオインスパイアされたオーディオ・ビジュアルキュース統合
- Authors: Yuan Yuan, Hailong Ning, and Bin Zhao
- Abstract要約: 視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
- 参考スコア(独自算出の注目度): 15.679379904130908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Attention Prediction (VAP) methods simulates the human selective
attention mechanism to perceive the scene, which is significant and imperative
in many vision tasks. Most existing methods only consider visual cues, while
neglect the accompanied audio information, which can provide complementary
information for the scene understanding. In fact, there exists a strong
relation between auditory and visual cues, and humans generally perceive the
surrounding scene by simultaneously sensing these cues. Motivated by this, a
bio-inspired audio-visual cues integration method is proposed for the VAP task,
which explores the audio modality to better predict the visual attention map by
assisting vision modality. The proposed method consists of three parts: 1)
audio-visual encoding, 2) audio-visual location, and 3) multi-cues aggregation
parts. Firstly, a refined SoundNet architecture is adopted to encode audio
modality for obtaining corresponding features, and a modified 3D ResNet-50
architecture is employed to learn visual features, containing both spatial
location and temporal motion information. Secondly, an audio-visual location
part is devised to locate the sound source in the visual scene by learning the
correspondence between audio-visual information. Thirdly, a multi-cues
aggregation part is devised to adaptively aggregate audio-visual information
and center-bias prior to generate the final visual attention map. Extensive
experiments are conducted on six challenging audiovisual eye-tracking datasets,
including DIEM, AVAD, Coutrot1, Coutrot2, SumMe, and ETMD, which shows
significant superiority over state-of-the-art visual attention models.
- Abstract(参考訳): 視覚注意予測(VAP)手法は、視覚タスクにおいて重要かつ必須であるシーンを認識するための人間の選択的な注意機構をシミュレートする。
既存の手法のほとんどは視覚的な手がかりしか考慮していないが、付随する音声情報は無視し、シーンの理解に補完的な情報を提供できる。
実際、聴覚と視覚の手がかりの間には強い関係があり、人間はこれらの手がかりを同時に感知することで周囲のシーンを知覚する。
このことから,バイオインスパイアされた視覚情報統合手法がVAPタスクに提案され,視覚のモダリティを補助することで視覚の注意マップをより正確に予測するためのオーディオモダリティが検討されている。
提案手法は以下の3つの部分からなる。
1)音声視覚符号化
2)音声・視覚的位置、及び
3)複数キュー集約部。
まず,音質を改良したSoundNetアーキテクチャを採用し,空間的位置情報と時間的動き情報の両方を含む視覚的特徴を学習する3D ResNet-50アーキテクチャを改良した。
次に、オーディオ視覚情報間の対応を学習して、映像中の音源を特定するように、オーディオ視覚位置情報部を工夫する。
第3に、最終視覚注意マップを生成する前に、オーディオ視覚情報とセンタバイアスとを適応的に集約するマルチキュー集約部を考案する。
大規模な実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難解な視線追跡データセットで行われ、最先端の視覚的注意モデルよりも大幅に優れている。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。