論文の概要: Do Joint Language-Audio Embeddings Encode Perceptual Timbre Semantics?
- arxiv url: http://arxiv.org/abs/2510.14249v1
- Date: Thu, 16 Oct 2025 03:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.691537
- Title: Do Joint Language-Audio Embeddings Encode Perceptual Timbre Semantics?
- Title(参考訳): 統合言語とオーディオの埋め込みは知覚的音節意味論をコード化するか?
- Authors: Qixin Deng, Bryan Pardo, Thrasyvoulos N Pappas,
- Abstract要約: 音節の知覚的次元を捉える能力に基づいて,上述の3つの共同言語-オーディオ埋め込みモデルを評価した。
以上の結果から,LAION-CLAPは,楽器音と音響効果の両面において,人間の知覚した音色セマンティクスと最も信頼性の高いアライメントを提供することが明らかとなった。
- 参考スコア(独自算出の注目度): 10.420650470020844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and modeling the relationship between language and sound is critical for applications such as music information retrieval,text-guided music generation, and audio captioning. Central to these tasks is the use of joint language-audio embedding spaces, which map textual descriptions and auditory content into a shared embedding space. While multimodal embedding models such as MS-CLAP, LAION-CLAP, and MuQ-MuLan have shown strong performance in aligning language and audio, their correspondence to human perception of timbre, a multifaceted attribute encompassing qualities such as brightness, roughness, and warmth, remains underexplored. In this paper, we evaluate the above three joint language-audio embedding models on their ability to capture perceptual dimensions of timbre. Our findings show that LAION-CLAP consistently provides the most reliable alignment with human-perceived timbre semantics across both instrumental sounds and audio effects.
- Abstract(参考訳): 言語と音の関係の理解とモデル化は,音楽情報検索,テキスト誘導音楽生成,音声キャプションなどの応用において重要である。
これらのタスクの中心は、テキスト記述と聴覚内容が共有埋め込み空間にマッピングされる共同言語-オーディオ埋め込み空間の使用である。
MS-CLAP, LAION-CLAP, MuQ-MuLan などのマルチモーダル埋め込みモデルは, 言語と音声の整合性において高い性能を示したが, 音色に対する人間の知覚に対する対応性は, 明るさ, 粗さ, 温かさなどの品質を含む多面的属性である。
本稿では,上述の3つの共同言語-音声埋め込みモデルについて,音節の知覚的次元を捉える能力について評価する。
以上の結果から,LAION-CLAPは,楽器音と音響効果の両面において,人間の知覚した音色セマンティクスと最も信頼性の高いアライメントを提供することが明らかとなった。
関連論文リスト
- Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文 参考訳(メタデータ) (2025-05-29T09:50:07Z) - Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - ALCAP: Alignment-Augmented Music Captioner [34.85003676798762]
コントラスト学習により,音声と歌詞のマルチモーダルアライメントを学習する手法を提案する。
これは、音声と歌詞のシナジーを認識し、強調するだけでなく、モデルがより深いモーダルなコヒーレンスを達成するための道を開く。
論文 参考訳(メタデータ) (2022-12-21T10:20:54Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。