論文の概要: TAAC: A gate into Trustable Audio Affective Computing
- arxiv url: http://arxiv.org/abs/2603.25570v1
- Date: Thu, 26 Mar 2026 15:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.365192
- Title: TAAC: A gate into Trustable Audio Affective Computing
- Title(参考訳): TAAC:信頼できるオーディオ影響コンピューティングへの門
- Authors: Xintao Hu, Feng-Qi Cui,
- Abstract要約: 本稿では,Trustable Audio Affective Computingのためのフレームワーク名を提案する。
信頼性の高い環境で音声による自動うつ病検出を行う。
抑うつ検出,ID予約,音声再構成における本フレームワークの卓越した性能について検討した。
- 参考スコア(独自算出の注目度): 2.8820692222998248
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of AI techniques for depression diagnosis, the conflict between high demand and limited supply for depression screening has been significantly alleviated. Among various modal data, audio-based depression diagnosis has received increasing attention from both academia and industry since audio is the most common carrier of emotion transmission. Unfortunately, audio data also contains User-sensitive Identity Information (ID), which is extremely vulnerable and may be maliciously used during the smart diagnosis process. Among previous methods, the clarification between depression features and sensitive features has always serve as a barrier. It is also critical to the problem for introducing a safe encryption methodology that only encrypts the sensitive features and a powerful classifier that can correctly diagnose the depression. To track these challenges, by leveraging adversarial loss-based Subspace Decomposition, we propose a first practical framework \name presented for Trustable Audio Affective Computing, to perform automated depression detection through audio within a trustable environment. The key enablers of TAAC are Differentiating Features Subspace Decompositor (DFSD), Flexible Noise Encryptor (FNE) and Staged Training Paradigm, used for decomposition, ID encryption and performance enhancement, respectively. Extensive experiments with existing encryption methods demonstrate our framework's preeminent performance in depression detection, ID reservation and audio reconstruction. Meanwhile, the experiments across various setting demonstrates our model's stability under different encryption strengths. Thus proving our framework's excellence in Confidentiality, Accuracy, Traceability, and Adjustability.
- Abstract(参考訳): うつ病診断のためのAI技術の出現に伴い、高需要とうつ病スクリーニングのための限られた供給との対立が著しく緩和された。
様々なモーダルデータの中で、音声ベースのうつ病診断は、音声が感情伝達の最も一般的な担体であるため、学術と産業の両方から注目を集めている。
残念なことに、オーディオデータにはユーザ機密情報(ID)も含まれている。
従来の方法では、うつ病の特徴と敏感な特徴の明確化は常に障壁として機能していた。
また、センシティブな特徴のみを暗号化する安全な暗号化手法と、うつ病を正しく診断できる強力な分類器を導入する上でも重要な問題である。
これらの課題を追究するために,敵対的損失に基づく部分空間分解を利用して,信頼可能なオーディオ影響コンピューティングのための最初の実践的フレームワークである「名前」を提案し,信頼可能な環境で音声による自動抑うつ検出を行う。
TAACの主な実現要因は、それぞれ分解、ID暗号化、性能向上に使用される差分化機能部分空間分解(DFSD)、フレキシブルノイズ暗号化(FNE)、ステージドトレーニングパラダイムである。
既存の暗号化手法による大規模な実験は、抑うつ検出、ID予約、オーディオ再構成における我々のフレームワークの卓越した性能を示す。
一方、様々な環境での実験は、異なる暗号化強度下でのモデルの安定性を実証している。
このように、信頼性、正確性、トレーサビリティ、調整性における我々のフレームワークの卓越性を証明します。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection [54.209716321122194]
抑うつ条件付きテキスト音声合成フレームワークであるDepFlowについて述べる。
抑うつ音響カモフラージュは、対向訓練を通じて話者と内容不変の抑うつ埋め込みを学習する。
フローマッチングTTSモデルとFiLM変調はこれらの埋め込みを合成に注入し、うつ病の重症度を制御する。
プロトタイプベースの重度マッピング機構は、うつ病連続体を滑らかかつ解釈可能な操作を提供する。
論文 参考訳(メタデータ) (2026-01-01T10:44:38Z) - Generalizable Speech Deepfake Detection via Information Bottleneck Enhanced Adversarial Alignment [48.73836179661632]
信頼誘導対向アライメントは、識別的手がかりを消去することなく攻撃固有のアーティファクトを適応的に抑制する。
IB-CAANは、多くのベンチマークにおいて、ベースラインと最先端のパフォーマンスを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-28T03:48:49Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Innovative Framework for Early Estimation of Mental Disorder Scores to Enable Timely Interventions [0.9297614330263184]
本稿では,PTSDとうつ病の自動分類のための高度なマルチモーダル深層学習システムについて述べる。
提案手法は, うつ病では92%, PTSDでは93%の分類精度を達成し, 従来の単潮流法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-06T10:57:10Z) - Attention-Based Acoustic Feature Fusion Network for Depression Detection [11.972591489278988]
抑うつ検出のためのアテンションベース音響特徴融合ネットワーク(ABAFnet)を提案する。
ABAFnetは、4つの異なる音響特徴を包括的ディープラーニングモデルに組み合わせ、多層的特徴を効果的に統合し、ブレンドする。
本稿では,これらの特徴を効果的に合成することにより,性能を向上する,遅延核融合のための新しい重量調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-24T00:31:51Z) - On the Adversarial Robustness of Generative Autoencoders in the Latent
Space [22.99128324197949]
本稿では,潜在空間における生成自己エンコーダの対角強靭性に関する最初の研究について述べる。
具体的には、潜伏空間における攻撃を通じて、一般的な生成オートエンコーダの潜伏する脆弱性を実証的に示す。
敵の強靭性と潜伏符号の絡み合いの程度との潜在的なトレードオフを同定する。
論文 参考訳(メタデータ) (2023-07-05T10:53:49Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。