論文の概要: Does it Chug? Towards a Data-Driven Understanding of Guitar Tone Description
- arxiv url: http://arxiv.org/abs/2412.11769v1
- Date: Mon, 16 Dec 2024 13:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:50.901315
- Title: Does it Chug? Towards a Data-Driven Understanding of Guitar Tone Description
- Title(参考訳): チューグか? - データ駆動によるギタートーン記述の理解に向けて
- Authors: Pratik Sutar, Jason Naradowsky, Yusuke Miyao,
- Abstract要約: 自然言語は一般に「ウォーム」や「ヘビー」のような楽器の音色を記述するために使われる。
本研究では,ギター音の文脈における形容詞の理解を深めるために,データ駆動型アプローチを追求する。
我々の主な貢献は音色形容詞のデータセットであり、楽器音の単一クリップを処理して、EQの調整や歪みなどの効果を通じて様々な音色を生成する。
- 参考スコア(独自算出の注目度): 11.553908096647978
- License:
- Abstract: Natural language is commonly used to describe instrument timbre, such as a "warm" or "heavy" sound. As these descriptors are based on human perception, there can be disagreement over which acoustic features correspond to a given adjective. In this work, we pursue a data-driven approach to further our understanding of such adjectives in the context of guitar tone. Our main contribution is a dataset of timbre adjectives, constructed by processing single clips of instrument audio to produce varied timbres through adjustments in EQ and effects such as distortion. Adjective annotations are obtained for each clip by crowdsourcing experts to complete a pairwise comparison and a labeling task. We examine the dataset and reveal correlations between adjective ratings and highlight instances where the data contradicts prevailing theories on spectral features and timbral adjectives, suggesting a need for a more nuanced, data-driven understanding of timbre.
- Abstract(参考訳): 自然言語は一般に「ウォーム」や「ヘビー」のような楽器の音色を記述するために使われる。
これらの記述子は人間の知覚に基づいているため、音響的特徴が与えられた形容詞に対応するかについては意見の相違がある。
本研究では,ギター音の文脈における形容詞の理解を深めるために,データ駆動型アプローチを追求する。
我々の主な貢献は音色形容詞のデータセットであり、楽器音の単一クリップを処理して、EQの調整や歪みなどの効果を通じて様々な音色を生成する。
各クリップに対する形容詞アノテーションは、クラウドソーシングの専門家によって取得され、ペア比較とラベル付けタスクを完了させる。
本研究は,主観的特徴と主観的形容詞に関する一般的な理論に矛盾する形容詞格と形容詞格の相関関係を考察し,よりニュアンスでデータ駆動的な音節理解の必要性を示唆する。
関連論文リスト
- Towards Estimating Personal Values in Song Lyrics [5.170818712089796]
西洋諸国で広く消費されている音楽は、歌詞が含まれており、アメリカのサンプルでは、彼らの楽曲ライブラリのほとんどすべてが歌詞を含んでいると報告している。
本稿では,社会科学理論に導かれたパースペクティビズム的アプローチを用いて,アノテーションの収集,品質評価,集約を行う。
次に、評価値辞書を用いて、事前学習した文/単語の埋め込みモデルに基づく評価値と比較する。
論文 参考訳(メタデータ) (2024-08-22T19:22:55Z) - Word-specific tonal realizations in Mandarin [0.9249657468385781]
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾の自発会話コーパスに基づいて,従来確立されていたすべての単語形式関連予測器よりも,単語タイプがピッチ実現の強い予測器であることが示す。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチ輪郭が保持データ上で50%の精度で単語タイプを予測することを示す。
論文 参考訳(メタデータ) (2024-05-11T13:00:35Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - A Phoneme-Informed Neural Network Model for Note-Level Singing
Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。
本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文 参考訳(メタデータ) (2023-04-12T15:36:01Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Musical Word Embedding: Bridging the Gap between Listening Contexts and
Music [5.89179309980335]
我々は、一般的なテキストデータと音楽固有のデータの組み合わせを用いて、単語の分散表現を訓練する。
聴取コンテキストと楽曲の関連性の観点からシステムの評価を行った。
論文 参考訳(メタデータ) (2020-07-23T06:42:45Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Part-dependent Label Noise: Towards Instance-dependent Label Noise [194.73829226122731]
このような現実的なノイズをモデル化することは困難であるため,テキスト依存性のラベルノイズによる学習は困難である。
本稿では,テキスト単位のラベルノイズを利用して,インスタンス依存のラベルノイズを近似する。
合成および実世界のデータセットに関する実証的な評価は、我々の手法が最先端のアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2020-06-14T08:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。