論文の概要: There is More than Meets the Eye: Self-Supervised Multi-Object Detection
and Tracking with Sound by Distilling Multimodal Knowledge
- arxiv url: http://arxiv.org/abs/2103.01353v1
- Date: Mon, 1 Mar 2021 23:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:54:12.800414
- Title: There is More than Meets the Eye: Self-Supervised Multi-Object Detection
and Tracking with Sound by Distilling Multimodal Knowledge
- Title(参考訳): 目を見つめる以上のものがある:マルチモーダル知識を希釈した自己監督型マルチオブジェクト検出と音追跡
- Authors: Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada
- Abstract要約: 複数の教師からなる自己教師型MM-DistillNetフレームワークを提案する。
マルチモーダル教師からの情報の蒸留を容易にする新しいMTA損失機能を提案します。
RGB、深度、サーマル、オーディオの113,000以上の時間同期フレームを備えた大規模なマルチモーダルデータセットを紹介します。
- 参考スコア(独自算出の注目度): 3.766381928314885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attributes of sound inherent to objects can provide valuable cues to learn
rich representations for object detection and tracking. Furthermore, the
co-occurrence of audiovisual events in videos can be exploited to localize
objects over the image field by solely monitoring the sound in the environment.
Thus far, this has only been feasible in scenarios where the camera is static
and for single object detection. Moreover, the robustness of these methods has
been limited as they primarily rely on RGB images which are highly susceptible
to illumination and weather changes. In this work, we present the novel
self-supervised MM-DistillNet framework consisting of multiple teachers that
leverage diverse modalities including RGB, depth and thermal images, to
simultaneously exploit complementary cues and distill knowledge into a single
audio student network. We propose the new MTA loss function that facilitates
the distillation of information from multimodal teachers in a self-supervised
manner. Additionally, we propose a novel self-supervised pretext task for the
audio student that enables us to not rely on labor-intensive manual
annotations. We introduce a large-scale multimodal dataset with over 113,000
time-synchronized frames of RGB, depth, thermal, and audio modalities.
Extensive experiments demonstrate that our approach outperforms
state-of-the-art methods while being able to detect multiple objects using only
sound during inference and even while moving.
- Abstract(参考訳): オブジェクト固有の音の属性は、オブジェクトの検出と追跡のために豊富な表現を学ぶための貴重な手がかりを提供する。
さらに、映像における視聴覚イベントの共起を利用して、環境内の音だけを監視することで、画像フィールド上のオブジェクトをローカライズすることができる。
今のところこれは、カメラが静的で単一のオブジェクト検出のためのシナリオでしか実現できない。
さらに、これらの手法のロバスト性は、主に照明や天候変化の影響を受けやすいRGB画像に依存しているため、制限されている。
本研究では,RGB,深度,サーマルイメージなどの多様なモダリティを活用したマルチ教師による,補完的キューの活用と知識の蒸留を同時にひとつのオーディオ学生ネットワークに実現する,新しい自己監督型MM-DistillNetフレームワークを提案する。
本稿では,マルチモーダル教師からの情報を自己管理的に蒸留する新しいMTA損失関数を提案する。
また,音声学生に対して,労働集約的なマニュアルアノテーションを使わずに,自己教師付きプリテキストタスクを提案する。
RGB、深度、サーマル、オーディオの113,000以上の時間同期フレームを備えた大規模なマルチモーダルデータセットを紹介します。
広範な実験により,提案手法は,推論時や移動時においても複数の物体を検出できる一方で,最先端の手法よりも優れていることが証明された。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。