論文の概要: Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions
- arxiv url: http://arxiv.org/abs/2604.17358v1
- Date: Sun, 19 Apr 2026 10:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.485134
- Title: Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions
- Title(参考訳): 音声アシスタントのロバスト性の評価と改善
- Authors: Dongwook Lee, Eunwoo Song, Che Hyun Lee, Heeseung Kim, Sungroh Yoon,
- Abstract要約: TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。
TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
- 参考スコア(独自算出の注目度): 52.45054413627452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Spoken Language Models (SLMs) have been actively deployed in real-world scenarios, they lack the capability to discern Third-Party Interruptions (TPI) from the primary user's ongoing flow, leaving them vulnerable to contextual failures. To bridge this gap, we introduce TPI-Train, a dataset of 88K instances designed with speaker-aware hard negatives to enforce acoustic cue prioritization for interruption handling, and TPI-Bench, a comprehensive evaluation framework designed to rigorously measure the interruption-handling strategy and precise speaker discrimination in deceptive contexts. Experiments demonstrate that our dataset design mitigates semantic shortcut learning-a critical pitfall where models exploit semantic context while neglecting acoustic signals essential for discerning speaker changes. We believe our work establishes a foundational resource for overcoming text-dominated unimodal reliance in SLMs, paving the way for more robust multi-party spoken interaction. The code for the framework is publicly available at https://tpi-va.github.io
- Abstract(参考訳): 最近のSpoken Language Models (SLM) は、現実のシナリオに積極的にデプロイされているが、主要なユーザの継続的なフローからサードパーティ間断続(TPI)を識別する能力が欠如しており、コンテキスト障害に対して脆弱である。
このギャップを埋めるために、話者認識型ハードネガティブで設計された88KインスタンスのデータセットであるTPI-Trainと、中断処理のための音響キュー優先順位付けを強制するTPI-Benchを紹介する。
実験により、我々のデータセット設計はセマンティックショートカット学習を緩和することを示した。
我々は,SLMにおけるテキスト支配的一助的信頼を克服し,より堅牢なマルチパーティ音声対話を実現するための基盤となる資源を確立していると信じている。
フレームワークのコードはhttps://tpi-va.github.ioで公開されている。
関連論文リスト
- When Contextual Inference Fails: Cancelability in Interactive Instruction Following [51.2195840589474]
私たちは、コンテキスト意味構築のためのインタラクティブなベンチマークであるBuild What I Meanを紹介します。
BWIMでは、モデルは文脈推論を行うか、小さな通信コストで明確化を要求することによって曖昧さを解決しなければならない。
我々は,不確実性の下でのパートナーブラインド過度明確化や質問逆推定などの準最適戦略を観察する。
論文 参考訳(メタデータ) (2026-03-20T14:46:59Z) - Koopman Regularized Deep Speech Disentanglement for Speaker Verification [6.659299099827954]
DKSD-AE(Deep Koopman Speech Disentanglement Autoencoder)
本稿では,複数ステップのKoopman演算子学習モジュールとインスタンス正規化を組み合わせた構造化オートエンコーダを提案する。
この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-05T17:30:18Z) - Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting [13.48022380380599]
本研究では,共用組込み空間における音響・クロスモーダル監視を統一するマルチモーダルコントラスト学習フレームワークを提案する。
i) CLAPの損失にインスパイアされた音声テキストのコントラスト学習と, (ii) 音声音声のコントラスト学習をDeep Word Discrimination (DWD) の損失で同時に最適化し, クラス内コンパクト性とクラス間分離性を高める。
提案手法は,STDとKWSの両方を柔軟にサポートしながら,単語識別タスクにおける既存のAWEベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T05:58:25Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。