論文の概要: Self-Supervised Learning of Audio-Visual Objects from Video
- arxiv url: http://arxiv.org/abs/2008.04237v1
- Date: Mon, 10 Aug 2020 16:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 23:40:38.854846
- Title: Self-Supervised Learning of Audio-Visual Objects from Video
- Title(参考訳): 映像からの映像オブジェクトの自己教師付き学習
- Authors: Triantafyllos Afouras, Andrew Owens, Joon Son Chung, Andrew Zisserman
- Abstract要約: 本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
- 参考スコア(独自算出の注目度): 108.77341357556668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our objective is to transform a video into a set of discrete audio-visual
objects using self-supervised learning. To this end, we introduce a model that
uses attention to localize and group sound sources, and optical flow to
aggregate information over time. We demonstrate the effectiveness of the
audio-visual object embeddings that our model learns by using them for four
downstream speech-oriented tasks: (a) multi-speaker sound source separation,
(b) localizing and tracking speakers, (c) correcting misaligned audio-visual
data, and (d) active speaker detection. Using our representation, these tasks
can be solved entirely by training on unlabeled video, without the aid of
object detectors. We also demonstrate the generality of our method by applying
it to non-human speakers, including cartoons and puppets.Our model
significantly outperforms other self-supervised approaches, and obtains
performance competitive with methods that use supervised face detection.
- Abstract(参考訳): 我々の目的は、自己教師付き学習を用いて、映像を離散的なオーディオ視覚オブジェクトに変換することである。
そこで本研究では,音源の局所化とグループ化に注意を向けるモデルと,情報集約のためのオプティカルフローを提案する。
我々は,4つのダウンストリーム音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
(a)マルチスピーカ音源分離
(b)話者の局所化及び追跡
(c)不整合音声視覚データを補正し、
(d)アクティブな話者検出。
我々の表現を用いて、これらのタスクは対象検出器を使わずに、ラベルなしのビデオのトレーニングによって完全に解決できる。
また,この手法をマンガや人形など非人間話者に適用することにより,その汎用性を実証し,他の自己教師付きアプローチを著しく上回り,教師付き顔検出法と競合する性能を得る。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。