論文の概要: TimbreCLIP: Connecting Timbre to Text and Images
- arxiv url: http://arxiv.org/abs/2211.11225v1
- Date: Mon, 21 Nov 2022 07:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:41:26.100564
- Title: TimbreCLIP: Connecting Timbre to Text and Images
- Title(参考訳): TimbreCLIP: テキストと画像にTybreを接続する
- Authors: Nicolas Jonason, Bob L.T. Sturm
- Abstract要約: 我々は、単一音符で訓練された音声テキストのクロスモーダル埋め込みであるTimbreCLIPを提示する。
合成パッチのクロスモーダル検索タスクを用いてモデルの評価を行う。
我々はTimbreCLIPをテキスト駆動型音声等化と画像生成のための音色の2つのタスクに適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present work in progress on TimbreCLIP, an audio-text cross modal
embedding trained on single instrument notes. We evaluate the models with a
cross-modal retrieval task on synth patches. Finally, we demonstrate the
application of TimbreCLIP on two tasks: text-driven audio equalization and
timbre to image generation.
- Abstract(参考訳): 我々は、単一音符で訓練された音声テキストのクロスモーダル埋め込みであるTimbreCLIPについて研究を進めている。
合成パッチのクロスモーダル検索タスクを用いてモデルの評価を行う。
最後に,TimbreCLIPをテキスト駆動型音声等化と画像生成のための音色変換という2つのタスクに適用した。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data [69.20254987896674]
SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。
本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-10T14:26:42Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and
Generation [52.037766778458504]
我々は,Omni-perception Pre-Trainer (OPT)を提案する。
OPTは3つのシングルモーダルエンコーダを含むエンコーダ・デコーダ・フレームワークで構築され、各モダリティに対してトークンベースの埋め込みを生成する。
OPTは、強力な画像・テキスト・オーディオ・マルチモーダル表現を学習し、様々なクロスモーダル理解および生成タスクにおける有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-07-01T06:59:44Z) - Introducing Latent Timbre Synthesis [0.0]
本稿では,Deep Learning を用いた新しい音声合成手法である Latent Timbre Synthesis (LTS) を提案する。
この方法により、作曲家や音響デザイナーは、音声フレームの潜在空間を用いて、複数の音の音色間を補間し、外挿することができる。
論文 参考訳(メタデータ) (2020-05-31T01:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。