論文の概要: The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction
- arxiv url: http://arxiv.org/abs/2604.14619v1
- Date: Thu, 16 Apr 2026 04:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.727942
- Title: The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction
- Title(参考訳): 音響カモフラージュ現象:金融リスク予測のための音声特徴の再評価
- Authors: Dhruvin Dungrani, Disha Dungrani,
- Abstract要約: 遠隔会議環境における高度に訓練された話者に適用した場合の音響的特徴抽出の限界について検討する。
後期核融合による音響特性の統合により性能が著しく低下し,47.08%のリコールが減少した。
我々はこの劣化をアコースティック・カモフラージュとみなし,マルチモーダル・メタ・ラーナーを妨害する矛盾する雑音をメディア訓練による発声規則で導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In computational paralinguistics, detecting cognitive load and deception from speech signals is a heavily researched domain. Recent efforts have attempted to apply these acoustic frameworks to corporate earnings calls to predict catastrophic stock market volatility. In this study, we empirically investigate the limits of acoustic feature extraction (pitch, jitter, and hesitation) when applied to highly trained speakers in in-the-wild teleconference environments. Utilizing a two-stream late-fusion architecture, we contrast an acoustic-based stream with a baseline Natural Language Processing (NLP) stream. The isolated NLP model achieved a recall of 66.25% for tail-risk downside events. Surprisingly, integrating acoustic features via late fusion significantly degraded performance, reducing recall to 47.08%. We identify this degradation as Acoustic Camouflage, where media-trained vocal regulation introduces contradictory noise that disrupts multimodal meta-learners. We present these findings as a boundary condition for speech processing applications in high-stakes financial forecasting.
- Abstract(参考訳): 計算パラ言語学において、音声信号からの認知的負荷と誤認を検出することは、非常に研究されている分野である。
近年、これらのアコースティックな枠組みを企業決算会見に適用し、破滅的な株式市場のボラティリティを予測する試みが進められている。
本研究では,Wild テレカンファレンス環境において,高度に訓練された話者に適用した場合の音響的特徴抽出(ピッチ,ジッタ,加湿)の限界を実証的に検討する。
2ストリームのレイトフュージョンアーキテクチャを用いることで、ベースラインの自然言語処理(NLP)ストリームと音響ベースのストリームを対比する。
孤立したNLPモデルは、テールリスクのダウンサイドイベントに対して66.25%のリコールを達成した。
驚いたことに、後期核融合による音響特性の統合は性能を著しく低下させ、リコール率は47.08%にまで低下した。
我々はこの劣化をアコースティック・カモフラージュとみなし,マルチモーダル・メタ・ラーナーを妨害する矛盾する雑音をメディア訓練による発声規則で導入する。
我々は,これらの知見を,ハイテイクな財務予測における音声処理応用のバウンダリ条件として提示する。
関連論文リスト
- SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models [49.313324100819955]
信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。
SEEはLALM性能と強い相関を示し,0.98。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-12T08:57:55Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Multitask frame-level learning for few-shot sound event detection [46.32294691870714]
本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。
本稿では,データ拡張のためのリニアタイミングマスクであるTimeFilterAugと,マルチタスクフレームレベルのSEDフレームワークを提案する。
提案手法はFスコア63.8%を達成し, バイオ音響事象検出カテゴリーにおける第1位を確保した。
論文 参考訳(メタデータ) (2024-03-17T05:00:40Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Towards Robust Waveform-Based Acoustic Models [41.82019240477273]
本研究では,実験条件とトレーニング条件のミスマッチを特徴とする,ロバストな音響モデル学習手法を提案する。
本手法は,入力空間上の経験的密度を定義するデルタ関数を,トレーニングサンプル近傍の限界人口密度の近似で置き換えることにより,トレーニング中のリスク推定を改善することを目的としている。
論文 参考訳(メタデータ) (2021-10-16T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。