論文の概要: Exploring How Audio Effects Alter Emotion with Foundation Models
- arxiv url: http://arxiv.org/abs/2509.15151v2
- Date: Sat, 20 Sep 2025 08:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 12:27:33.508124
- Title: Exploring How Audio Effects Alter Emotion with Foundation Models
- Title(参考訳): 基礎モデルによる音響効果の感情変化の探索
- Authors: Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou,
- Abstract要約: 音声効果(FX)は、音楽聴取中に感情的な反応を形作る上で重要な役割を担っている。
本研究は、基礎モデルを用いてこれらの効果を分析する方法について検討する。
本研究の目的は,音楽の認知,演奏,情緒的コンピューティングに影響を及ぼす音楽制作実践の知覚的影響の理解を深めることである。
- 参考スコア(独自算出の注目度): 8.932607465669195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio effects (FX) such as reverberation, distortion, modulation, and dynamic range processing play a pivotal role in shaping emotional responses during music listening. While prior studies have examined links between low-level audio features and affective perception, the systematic impact of audio FX on emotion remains underexplored. This work investigates how foundation models - large-scale neural architectures pretrained on multimodal data - can be leveraged to analyze these effects. Such models encode rich associations between musical structure, timbre, and affective meaning, offering a powerful framework for probing the emotional consequences of sound design techniques. By applying various probing methods to embeddings from deep learning models, we examine the complex, nonlinear relationships between audio FX and estimated emotion, uncovering patterns tied to specific effects and evaluating the robustness of foundation audio models. Our findings aim to advance understanding of the perceptual impact of audio production practices, with implications for music cognition, performance, and affective computing.
- Abstract(参考訳): 残響、歪み、変調、ダイナミックレンジ処理などの音響効果(FX)は、音楽聴取時の感情応答の形成において重要な役割を果たす。
先行研究は低レベルの音声特徴と情緒的知覚との関係について検討してきたが、音声FXの感情に対する系統的影響は未解明のままである。
この研究は、基礎モデル(マルチモーダルデータで事前訓練された大規模なニューラルネットワーク)をどのように活用してこれらの効果を分析するかを研究する。
このようなモデルは、音楽構造、音色、感情的意味の豊富な関連を符号化し、音響設計技法の感情的影響を探索するための強力な枠組みを提供する。
深層学習モデルの埋め込みに様々な探索手法を適用することにより,音声FXと推定感情の複雑な非線形関係,特定の効果に関連するパターンの解明,基礎的音響モデルの堅牢性の評価を行う。
本研究の目的は,音楽の認知,演奏,情緒的コンピューティングに影響を及ぼす音楽制作実践の知覚的影響の理解を深めることである。
関連論文リスト
- Evaluating Fake Music Detection Performance Under Audio Augmentations [0.0]
複数のシステムを用いて生成した実・合成音楽の双方からなるデータセットを構築した。
次に、様々なオーディオ変換を適用し、それらが分類精度にどのように影響するかを分析する。
我々は,近年の最先端音楽ディープフェイク検出モデルの性能を,音声拡張の有無で検証する。
論文 参考訳(メタデータ) (2025-07-07T16:15:02Z) - Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation [36.11407262818182]
最先端システム(SOTA)は、トレーニングデータセット、モデリングパラダイム、アーキテクチャ選択など、多くの面で大きく異なる。
本研究はモデリングパラダイムにのみ焦点をあてる。
自動回帰デコーディングと条件付きフローマッチングという,最も一般的な2つのモデリングパラダイムを比較した。
論文 参考訳(メタデータ) (2025-06-10T08:37:45Z) - Investigating the Sensitivity of Pre-trained Audio Embeddings to Common Effects [4.202522944371801]
広範に使用されている基礎モデルから抽出したオーディオ埋め込みの音響効果に対する感度について検討する。
パラメータ化音響効果を適用し,変形軌跡と埋め込み空間における効果強度の相関関係を解析した。
音響効果の強さが増大するにつれて、埋め込みが単調に動く方向が存在するが、変位を含む部分空間は概して高次元である。
論文 参考訳(メタデータ) (2025-01-27T09:49:08Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。