論文の概要: Audio Representation Learning by Distilling Video as Privileged
Information
- arxiv url: http://arxiv.org/abs/2302.02845v1
- Date: Mon, 6 Feb 2023 15:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:29:52.996567
- Title: Audio Representation Learning by Distilling Video as Privileged
Information
- Title(参考訳): 映像を特権情報として蒸留した音声表現学習
- Authors: Amirhossein Hajavi, Ali Etemad
- Abstract要約: 本稿では,音声・視覚データを用いた深層音声表現学習のための新しい手法を提案する。
我々は、特権情報(LUPI)を用いた学習の枠組みの下で、教師による知識蒸留を採用する。
LUPIを用いた先行研究と同様に、単独の音声認識よりも大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 25.71206255965502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep audio representation learning using multi-modal audio-visual data often
leads to a better performance compared to uni-modal approaches. However, in
real-world scenarios both modalities are not always available at the time of
inference, leading to performance degradation by models trained for multi-modal
inference. In this work, we propose a novel approach for deep audio
representation learning using audio-visual data when the video modality is
absent at inference. For this purpose, we adopt teacher-student knowledge
distillation under the framework of learning using privileged information
(LUPI). While the previous methods proposed for LUPI use soft-labels generated
by the teacher, in our proposed method we use embeddings learned by the teacher
to train the student network. We integrate our method in two different
settings: sequential data where the features are divided into multiple segments
throughout time, and non-sequential data where the entire features are treated
as one whole segment. In the non-sequential setting both the teacher and
student networks are comprised of an encoder component and a task header. We
use the embeddings produced by the encoder component of the teacher to train
the encoder of the student, while the task header of the student is trained
using ground-truth labels. In the sequential setting, the networks have an
additional aggregation component that is placed between the encoder and task
header. We use two sets of embeddings produced by the encoder and aggregation
component of the teacher to train the student. Similar to the non-sequential
setting, the task header of the student network is trained using ground-truth
labels. We test our framework on two different audio-visual tasks, namely
speaker recognition and speech emotion recognition and show considerable
improvements over sole audio-based recognition as well as prior works that use
LUPI.
- Abstract(参考訳): マルチモーダルな視聴覚データを用いた深い音声表現学習は、ユニモーダルアプローチよりも優れたパフォーマンスをもたらすことが多い。
しかし、実世界のシナリオでは、両方のモダリティが推論時に常に利用できるわけではないため、マルチモーダル推論のために訓練されたモデルによって性能が劣化する。
本研究では,映像モダリティが欠落している場合の視聴覚データを用いた深層音声表現学習のための新しい手法を提案する。
そこで我々は,特権情報(LUPI)を用いた学習の枠組みの下で,教師による知識蒸留を採用する。
提案手法は教師が作成したソフトラベルを用いるが,提案手法では教師が学習した埋め込みを用いて学習ネットワークを訓練する。
この手法を2つの異なる設定で統合する: 特徴を時間を通して複数のセグメントに分割する逐次データと、特徴全体を1つのセグメントとして扱う非逐次データである。
非シーケンス設定では、教師と生徒のネットワークは、エンコーダコンポーネントとタスクヘッダとから構成されている。
我々は,教師のエンコーダコンポーネントが生成した埋め込みを用いて,生徒のエンコーダを訓練し,学生のタスクヘッダーは,地道ラベルを用いて訓練する。
シーケンシャルな設定では、ネットワークは、エンコーダとタスクヘッダの間に配置される追加の集約コンポーネントを持つ。
教師のエンコーダと集約コンポーネントによって生成された2組の埋め込みを使って生徒を訓練する。
非シーケンス設定と同様に、学生ネットワークのタスクヘッダは接地ラベルを使用してトレーニングされる。
音声認識と音声感情認識という2つの異なる視聴覚タスクでこのフレームワークをテストし,lupiを用いた先行研究と同様に,単独の音声認識よりも大幅に改善したことを示す。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。