論文の概要: TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control
- arxiv url: http://arxiv.org/abs/2603.09332v1
- Date: Tue, 10 Mar 2026 08:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.141332
- Title: TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control
- Title(参考訳): TimberAgent: 実行可能な音楽効果制御のためのグラムガイド検索
- Authors: Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli Zhang,
- Abstract要約: Texture Resonance Retrieval (TRR) は、中間レベルWav2Vec2アクティベーションのグラマー行列から構築されたオーディオ表現である。
TRRを1063のプレセットと204のクエリで評価した。
- 参考スコア(独自算出の注目度): 9.319159431126453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital audio workstations expose rich effect chains, yet a semantic gap remains between perceptual user intent and low-level signal-processing parameters. We study retrieval-grounded audio effect control, where the output is an editable plugin configuration rather than a finalized waveform. Our focus is Texture Resonance Retrieval (TRR), an audio representation built from Gram matrices of projected mid-level Wav2Vec2 activations. This design preserves texture-relevant co-activation structure. We evaluate TRR on a guitar-effects benchmark with 1,063 candidate presets and 204 queries. The evaluation follows Protocol-A, a cross-validation scheme that prevents train-test leakage. We compare TRR against CLAP and internal retrieval baselines (Wav2Vec-RAG, Text-RAG, FeatureNN-RAG), using min-max normalized metrics grounded in physical DSP parameter ranges. Ablation studies validate TRR's core design choices: projection dimensionality, layer selection, and projection type. A near-duplicate sensitivity analysis confirms that results are robust to trivial knowledge-base matches. TRR achieves the lowest normalized parameter error among evaluated methods. A multiple-stimulus listening study with 26 participants provides complementary perceptual evidence. We interpret these results as benchmark evidence that texture-aware retrieval is useful for editable audio effect control, while broader personalization and real-audio robustness claims remain outside the verified evidence presented here.
- Abstract(参考訳): デジタルオーディオワークステーションはリッチエフェクトチェーンを公開するが、知覚的ユーザ意図と低レベル信号処理パラメータの間には意味的なギャップが残っている。
本研究では,最終的な波形ではなく,編集可能なプラグイン構成を出力とする検索グラウンドオーディオエフェクト制御について検討する。
私たちの焦点はTexture Resonance Retrieval(TRR)です。これは、投影された中級Wav2Vec2アクティベーションのグラム行列から構築されたオーディオ表現です。
この設計はテクスチャ関連コアクティベーション構造を保存する。
TRRを1063のプレセットと204のクエリで評価した。
評価は、テストのリークを防止するクロスバリデーションスキームであるProtocol-Aに従う。
物理DSPパラメータ範囲を基準としたmin-max正規化指標を用いて,TRRとCLAPと内部検索ベースライン(Wav2Vec-RAG, Text-RAG, FeatureNN-RAG)を比較した。
アブレーション研究は、TRRの中核設計選択である射影次元、層選択、射影型を検証した。
ほぼ重複した感度分析により、結果は自明な知識ベースマッチングに対して堅牢であることが確認される。
TRRは評価手法の中で最小の正規化パラメータ誤差を達成する。
26人の被験者による多刺激聴取研究は、相補的な知覚的証拠を提供する。
これらの結果は,テクスチャを意識した検索が編集可能な音声効果制御に有用であることを示すベンチマークエビデンスとして解釈する。
関連論文リスト
- Learning Normal Patterns in Musical Loops [0.0]
本稿では,音楽サンプル(ループ)の音響パターンを異常検出により検出するための教師なしフレームワークを提案する。
深部特徴抽出と教師なし異常検出を組み合わせたアーキテクチャにより,これらの制約に対処する。
論文 参考訳(メタデータ) (2025-05-22T19:52:00Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。