論文の概要: Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition
- arxiv url: http://arxiv.org/abs/2005.08449v2
- Date: Thu, 16 Jul 2020 03:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:22:06.133698
- Title: Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition
- Title(参考訳): geotagged audio visual scene recognitionのためのクロスタスク転送
- Authors: Di Hu, Xuhong Li, Lichao Mou, Pu Jin, Dong Chen, Liping Jing,
Xiaoxiang Zhu, Dejing Dou
- Abstract要約: 映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
- 参考スコア(独自算出の注目度): 61.54648991466747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial scene recognition is a fundamental task in remote sensing and has
recently received increased interest. While the visual information from
overhead images with powerful models and efficient algorithms yields
considerable performance on scene recognition, it still suffers from the
variation of ground objects, lighting conditions etc. Inspired by the
multi-channel perception theory in cognition science, in this paper, for
improving the performance on the aerial scene recognition, we explore a novel
audiovisual aerial scene recognition task using both images and sounds as
input. Based on an observation that some specific sound events are more likely
to be heard at a given geographic location, we propose to exploit the knowledge
from the sound events to improve the performance on the aerial scene
recognition. For this purpose, we have constructed a new dataset named AuDio
Visual Aerial sceNe reCognition datasEt (ADVANCE). With the help of this
dataset, we evaluate three proposed approaches for transferring the sound event
knowledge to the aerial scene recognition task in a multimodal learning
framework, and show the benefit of exploiting the audio information for the
aerial scene recognition. The source code is publicly available for
reproducibility purposes.
- Abstract(参考訳): 航空シーン認識はリモートセンシングの基本的な課題であり,近年関心が高まっている。
強力なモデルと効率的なアルゴリズムを持つオーバヘッド画像から得られる視覚情報は、シーン認識にかなりの性能をもたらすが、地上の物体や照明条件の変化に悩まされている。
本稿では,認知科学における多チャンネル知覚理論に着想を得て,映像と音の両方を入力として,新しい視覚映像認識タスクについて検討する。
特定の音のイベントが特定の場所においてより聞こえやすいという観測に基づいて、音のイベントからの知識を活用し、空中シーン認識の性能を向上させることを提案する。
そこで我々は,AuDio Visual Aerial sceNe reCognition datasEt (ADVANCE) という新しいデータセットを構築した。
本データセットの助けを借りて,マルチモーダル学習の枠組みにおいて,音のイベント知識を音場認識タスクに移すための3つの手法を評価し,音場認識に音声情報を利用するメリットを示す。
ソースコードは再現性のために公開されている。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。