論文の概要: A proto-object based audiovisual saliency map
- arxiv url: http://arxiv.org/abs/2003.06779v1
- Date: Sun, 15 Mar 2020 08:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 09:12:36.522644
- Title: A proto-object based audiovisual saliency map
- Title(参考訳): プロト・オブジェクトに基づく視聴覚サリエンシーマップ
- Authors: Sudarshan Ramenahalli
- Abstract要約: 本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural environment and our interaction with it is essentially multisensory,
where we may deploy visual, tactile and/or auditory senses to perceive, learn
and interact with our environment. Our objective in this study is to develop a
scene analysis algorithm using multisensory information, specifically vision
and audio. We develop a proto-object based audiovisual saliency map (AVSM) for
the analysis of dynamic natural scenes. A specialized audiovisual camera with
$360 \degree$ Field of View, capable of locating sound direction, is used to
collect spatiotemporally aligned audiovisual data. We demonstrate that the
performance of proto-object based audiovisual saliency map in detecting and
localizing salient objects/events is in agreement with human judgment. In
addition, the proto-object based AVSM that we compute as a linear combination
of visual and auditory feature conspicuity maps captures a higher number of
valid salient events compared to unisensory saliency maps. Such an algorithm
can be useful in surveillance, robotic navigation, video compression and
related applications.
- Abstract(参考訳): 自然環境とそれとの相互作用は本質的にはマルチセンサーであり、視覚、触覚、聴覚を配置し、環境を知覚し、学習し、対話することができる。
本研究の目的は,多感覚情報,特に視覚と音声を用いたシーン分析アルゴリズムの開発である。
動的自然シーンの分析のためのproto-object based audiovisual saliency map (avsm) を開発した。
音の方向を測ることのできる360ドル(約3万3000円)の視野を持つ特殊なオーディオヴィジュアルカメラを用いて、時空間的に整列したオーディオヴィジュアルデータを収集する。
本稿では,サルトオブジェクトの検出と局所化におけるproto-object-based audio visual saliency mapの性能が,人間の判断と一致していることを示す。
さらに,視覚特徴量マップと聴覚特徴量マップの線形結合として計算したproto-objectベースのavsmは,一感覚的サルエンシーマップと比較して,有効なサルエントイベントを多く捉えている。
このようなアルゴリズムは、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。