論文の概要: Connecting the Dots between Audio and Text without Parallel Data through
Visual Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2112.08995v1
- Date: Thu, 16 Dec 2021 16:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:18:21.006957
- Title: Connecting the Dots between Audio and Text without Parallel Data through
Visual Knowledge Transfer
- Title(参考訳): 視覚的知識伝達による並列データのない音声とテキスト間のドット接続
- Authors: Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers,
Yejin Choi
- Abstract要約: VIP-ANTは、並列オーディオテキストデータを使用することなくtextbfAudio-textbfTextアライメントを誘導する。
本研究は,音声テキストデータの並列化をほとんど行わずに,音声テキスト接続を学習するための新たな道を開くものである。
- 参考スコア(独自算出の注目度): 40.85506152074302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machines that can represent and describe environmental soundscapes have
practical potential, e.g., for audio tagging and captioning systems. Prevailing
learning paradigms have been relying on parallel audio-text data, which is,
however, scarcely available on the web. We propose VIP-ANT that induces
\textbf{A}udio-\textbf{T}ext alignment without using any parallel audio-text
data. Our key idea is to share the image modality between bi-modal image-text
representations and bi-modal image-audio representations; the image modality
functions as a pivot and connects audio and text in a tri-modal embedding space
implicitly.
In a difficult zero-shot setting with no paired audio-text data, our model
demonstrates state-of-the-art zero-shot performance on the ESC50 and US8K audio
classification tasks, and even surpasses the supervised state of the art for
Clotho caption retrieval (with audio queries) by 2.2\% R@1. We further
investigate cases of minimal audio-text supervision, finding that, e.g., just a
few hundred supervised audio-text pairs increase the zero-shot audio
classification accuracy by 8\% on US8K. However, to match human parity on some
zero-shot tasks, our empirical scaling experiments suggest that we would need
about $2^{21} \approx 2M$ supervised audio-caption pairs. Our work opens up new
avenues for learning audio-text connections with little to no parallel
audio-text data.
- Abstract(参考訳): 環境音環境を表現・記述できる機械は、例えば音声タグやキャプションシステムなど、実用的な可能性を秘めている。
一般的な学習パラダイムは、並列音声テキストデータに依存しており、Web上ではほとんど利用できない。
並列音声テキストデータを用いずに, \textbf{a}udio-\textbf{t}extアライメントを誘導するvip-antを提案する。
我々のキーとなる考え方は、バイモーダルな画像-テキスト表現とバイモーダルな画像-オーディオ表現との間の画像モダリティを共有することである。
対の音声テキストデータを持たない難易度ゼロショット設定では,esc50およびus8k音声分類タスクで最先端のゼロショット性能を実証し,クロスキャプション検索(オーディオクエリ付き)の教師あり状態を2.2\%r@1で上回った。
さらに、最小限の音声テキスト管理の場合、例えば、わずか数百の教師付き音声テキストペアが、ゼロショット音声分類の精度をUS8Kで8\%向上することを調べる。
しかしながら、ゼロショットタスクにおける人間のパリティを一致させるためには、実験的なスケーリング実験により、約2M(約2M)のオーディオカプセルペアが必要であることが示唆された。
本研究は,音声テキストデータの並列化をほとんど行わずに音声テキスト接続を学習するための新たな道を開く。
関連論文リスト
- Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval? [0.0]
本研究は、音声テキスト検索(ATR)とAAC(Automated Audio Captioning)の関係について検討する。
ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。
ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。
論文 参考訳(メタデータ) (2023-08-29T07:53:17Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Retrieval with WavText5K and CLAP Training [8.362098382773265]
我々は、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提案する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
本フレームワークは,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
論文 参考訳(メタデータ) (2022-09-28T17:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。