論文の概要: Towards Effective Negation Modeling in Joint Audio-Text Models for Music
- arxiv url: http://arxiv.org/abs/2601.13931v1
- Date: Tue, 20 Jan 2026 13:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.314923
- Title: Towards Effective Negation Modeling in Joint Audio-Text Models for Music
- Title(参考訳): 音楽用共同音声テキストモデルにおける効果的な否定モデルの構築に向けて
- Authors: Yannis Vasilakis, Rachel Bittner, Johan Pauwels,
- Abstract要約: 共同音声テキストモデルは否定のような意味的な現象と競合する。
テキスト拡張による否定と異種性に基づくコントラスト損失を導入する。
本稿では,検索および二項分類タスクとして,否定モデリングをフレーム化する2つのプロトコルを提案する。
- 参考スコア(独自算出の注目度): 3.7723788828505125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint audio-text models are widely used for music retrieval, yet they struggle with semantic phenomena such as negation. Negation is fundamental for distinguishing the absence (or presence) of musical elements (e.g., "with vocals" vs. "without vocals"), but current systems fail to represent this reliably. In this work, we investigate and mitigate this limitation by training CLAP models from scratch on the Million Song Dataset with LP-MusicCaps-MSD captions. We introduce negation through text augmentation and a dissimilarity-based contrastive loss, designed to explicitly separate original and negated captions in the joint embedding space. To evaluate progress, we propose two protocols that frame negation modeling as retrieval and binary classification tasks. Experiments demonstrate that both methods, individually and combined, improve negation handling while largely preserving retrieval performance.
- Abstract(参考訳): 共同音声テキストモデルは音楽検索に広く用いられているが、否定のような意味的な現象に苦慮している。
否定は音楽要素の欠如(例えば「声なし」と「声なし」とを区別するために基本的であるが、現在のシステムはそれを確実に表すことができない。
本研究では,LP-MusicCaps-MSDキャプションでミリオン・ソング・データセットをスクラッチから学習することで,この制限を緩和する。
テキスト拡張による否定と異種性に基づくコントラスト損失を導入し, 共同埋め込み空間において, オリジナルキャプションと否定キャプションを明示的に分離するように設計された。
進捗を評価するために,検索と二分分類タスクとして否定モデリングをフレーム化する2つのプロトコルを提案する。
実験により, 互いに個別に組み合わせた手法は, 主に検索性能を保ちながら, 否定処理を改善することが示された。
関連論文リスト
- SpaceVLM: Sub-Space Modeling of Negation in Vision-Language Models [17.194017001016135]
視覚言語モデルの埋め込み空間は意味的に一貫した部分空間に分割できることを示す。
単一点ではなく結合埋め込み空間における部分空間として否定をモデル化する学習自由フレームワークを提案する。
提案手法は,従来手法よりも平均約30%の否定的理解を向上する。
論文 参考訳(メタデータ) (2025-11-15T19:18:40Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [47.965028296133426]
我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文 参考訳(メタデータ) (2025-05-29T09:50:07Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。