論文の概要: Mixed-Precision Information Bottlenecks for On-Device Trait-State Disentanglement in Bipolar Agitation Detection
- arxiv url: http://arxiv.org/abs/2605.03039v1
- Date: Mon, 04 May 2026 18:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.587157
- Title: Mixed-Precision Information Bottlenecks for On-Device Trait-State Disentanglement in Bipolar Agitation Detection
- Title(参考訳): バイポーラ偏差検出におけるオンデバイストラト・ディスタングルのための混合精度情報スロットネック
- Authors: Joydeep Chandra,
- Abstract要約: MP-IBは、臨床特性状態分離のための情報ボトルネックとして、混合精度量子化を扱う最初のフレームワークである。
Bridge2AI-Voice (N=833, 4セッション/参加者, 厳密な話者非依存CV), MPIB rho = 0.117 (95% CI: [0.089, 0.145 vs. chance], p3 vs. chance)について
エンドツーエンドのレイテンシは23.4ミリ秒で、フットプリントは617KBで、20ドル以下のデバイスでリアルタイム監視が可能である。
- 参考スコア(独自算出の注目度): 3.252472808549431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous monitoring of bipolar disorder agitation via voice biomarkers requires disentangling stable speaker traits from volatile affective states on resource-constrained edge devices. We introduce MP-IB, the first framework to treat mixed-precision quantization as an information bottleneck for clinical trait-state separation. The core insight is that numerical precision itself controls capacity: an FP16 trait head (1,024 bits) encodes speaker identity, while an INT4 state head (128 bits) captures agitation, yielding 8x information asymmetry without adversarial training. We augment this with Dynamic Precision Scheduling and Multi-Scale Temporal Fusion. On Bridge2AI-Voice (N=833, 4 sessions/participant, strict speaker-independent CV), MP-IB achieves rho = 0.117 (95\% CI: [0.089, 0.145], p=0.003 vs. chance), outperforming 94M-parameter WavLM-Adapter with in-domain SSL continuation (rho = -0.042), beta VAE disentanglement (rho = 0.089), and hand-crafted prosody (rho = 0.031) by 2.8--15.9 points absolute. Zero-shot transfer to CREMA-D achieves AUC=0.817. Identity leakage is suppressed to near-random (EER=0.42, MIA-AUC=0.52). End-to-end latency is 23.4 ms with a 617 KB footprint, enabling real-time monitoring on sub 20 dollar devices.
- Abstract(参考訳): 音声バイオマーカーによる双極性障害刺激の連続モニタリングでは、リソース制約されたエッジデバイス上での揮発性感情状態から安定した話者特性を遠ざける必要がある。
我々は,臨床特性状態分離のための情報ボトルネックとして,混合精度量子化を扱う最初のフレームワークであるMP-IBを紹介する。
FP16特性ヘッド(1,024ビット)は話者識別を符号化し、INT4状態ヘッド(128ビット)は動揺を捉え、敵の訓練なしに8倍の情報非対称性をもたらす。
動的精度スケジューリングとマルチスケールテンポラルフュージョンによりこれを拡張する。
Bridge2AI-Voice (N=833, 4 session/Participant, strict speaker-independent CV)では、MP-IB は rho = 0.117 (95\% CI: [0.089, 0.145], p=0.003 vs. chance) を達成し、94Mパラメータの WavLM-Adapter をドメイン内のSSL継続 (rho = -0.042), Beta VAE のアンタングル (rho = 0.089), and hand-crafted prosody (rho = 0.031), by 2.8-159 points を達成している。
CREMA-Dへのゼロショット転送はAUC=0.817を達成する。
アイデンティティリークは、ほぼランダム(EER=0.42、MIA-AUC=0.52)に抑制される。
エンドツーエンドのレイテンシは23.4ミリ秒で、フットプリントは617KBで、20ドル以下のデバイスでリアルタイム監視が可能である。
関連論文リスト
- CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - Reliable Audio Deepfake Detection in Variable Conditions via Quantum-Kernel SVMs [0.0]
音響ディープフェイク検出において量子カーネルを用いることで,モデルサイズを増大させることなく偽陽性率を低減できることを示す。
量子カーネルSVMと従来のSVMを同一のメル-スペクトログラム前処理を用いて比較する。
QSVMは、ASVspoof 5(2024年)で0.183対0.299、ADD23で0.081対0.188、ASVspoof 2019で0.346対0.399、In-the-Wildで0.355対0.413である。
論文 参考訳(メタデータ) (2025-12-21T16:31:05Z) - Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - Enhancing Kerr-Cat Qubit Coherence with Controlled Dissipation [64.05054054401175]
Kerr-cat qubit (KCQ) はボゾン量子プロセッサである。
KCQはオンチップアーキテクチャや高忠実度操作と実験的に互換性がある。
KCQ におけるビットフリップ時間は、キュービット多様体からの漏れによって制限されるという直接的な証拠を示す。
論文 参考訳(メタデータ) (2025-11-02T17:58:36Z) - U-Mamba2-SSL for Semi-Supervised Tooth and Pulp Segmentation in CBCT [44.3806898357896]
U-Mamba2-SSLは,U-Mamba2モデル上に構築され,多段階の学習戦略を用いる,新しい半教師付き学習フレームワークである。
U-Mamba2-SSLは平均スコア0.789、DSC0.917を隠しテストセットで達成し、STSR 2025のタスク1で1位となった。
論文 参考訳(メタデータ) (2025-09-24T14:19:33Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics [44.60499998155848]
QPAudioEraserは量子にインスパイアされたオーディオアンラーニングフレームワークである。
シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがって、従来のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2025-07-29T20:12:24Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Near-degenerate quadrature-squeezed vacuum generation on a
silicon-nitride chip [54.87128096861778]
本報告では, 小型プリントシリコン窒化ケイ素マイクロ共振器と2重励起4波混合方式を用いて, 高周波キャリアサイドバンドの4相圧縮状態の生成を実証する。
このシステムでは, ポンプの非線形挙動を考慮し, 発生可能なスクイーズを適切に予測することが重要である。
論文 参考訳(メタデータ) (2020-02-04T01:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。