論文の概要: Demonstration of Adapt4Me: An Uncertainty-Aware Authoring Environment for Personalizing Automatic Speech Recognition to Non-normative Speech
- arxiv url: http://arxiv.org/abs/2603.20112v1
- Date: Fri, 20 Mar 2026 16:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.23989
- Title: Demonstration of Adapt4Me: An Uncertainty-Aware Authoring Environment for Personalizing Automatic Speech Recognition to Non-normative Speech
- Title(参考訳): Adapt4Meの実証: 音声認識を非負音声にパーソナライズするための不確実性認識オーサリング環境
- Authors: Niclas Pokel, Yiming Zhao, Pehuén Moure, Yingqiang Gao, Roman Böhringer,
- Abstract要約: Adapt4MeはWebベースの分散環境であり、ベイズ的なアクティブラーニングを運用し、専門家の監督なしにエンドツーエンドのパーソナライズを可能にする。
このアプリは、3段階のHuman-in-the-loopワークフローを通じて、データのセレクション、適応、バリデーションを提供する。
これにより、ユーザがロバストなASRモデルをパーソナライズし、受動的データソースから独自のアシスト技術のアクティブな作者に変換できることを示す。
- 参考スコア(独自算出の注目度): 8.843910065091132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalizing Automatic Speech Recognition (ASR) for non-normative speech remains challenging because data collection is labor-intensive and model training is technically complex. To address these limitations, we propose Adapt4Me, a web-based decentralized environment that operationalizes Bayesian active learning to enable end-to-end personalization without expert supervision. The app exposes data selection, adaptation, and validation to lay users through a three-stage human-in-the-loop workflow: (1) rapid profiling via greedy phoneme sampling to capture speaker-specific acoustics; (2) backend personalization using Variational Inference Low-Rank Adaptation (VI-LoRA) to enable fast, incremental updates; and (3) continuous improvement, where users guide model refinement by resolving visualized model uncertainty via low-friction top-k corrections. By making epistemic uncertainty explicit, Adapt4Me reframes data efficiency as an interactive design feature rather than a purely algorithmic concern. We show how this enables users to personalize robust ASR models, transforming them from passive data sources into active authors of their own assistive technology.
- Abstract(参考訳): 非ノルマ的発話に対する個人化自動音声認識(ASR)は、データ収集が労働集約的であり、モデル訓練が技術的に複雑であるため、依然として困難である。
これらの制約に対処するために,ベイズ的アクティブラーニングを運用し,専門家の監督なしにエンドツーエンドのパーソナライズを可能にするWebベースの分散環境であるAdapt4Meを提案する。
1) 音素サンプリングによる高速なプロファイリングにより話者固有の音響を捕捉し、(2) 変分推論を用いたバックエンドの個人化(VI-LoRA)により高速でインクリメンタルな更新を可能にする。
Adapt4Meは、認識の不確実性を明示することにより、純粋にアルゴリズム的な関心事ではなく、インタラクティブな設計機能としてデータ効率を再設定する。
これにより、ユーザがロバストなASRモデルをパーソナライズし、受動的データソースから独自のアシスト技術のアクティブな作者に変換できることを示す。
関連論文リスト
- Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文 参考訳(メタデータ) (2026-02-12T20:41:22Z) - Fints: Efficient Inference-Time Personalization for LLMs with Fine-Grained Instance-Tailored Steering [49.212940215720884]
本稿では,ユーザデータからサンプルレベルの干渉を生成し,モデルの前方通過に注入してパーソナライズするステアリングフレームワークを提案する。
本手法は,対話モードやコンテキスト長の異なる環境において,ロバスト性を保ちながら,高速シフト環境におけるパーソナライズ性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-31T06:01:04Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models [11.696474872520808]
音声基礎モデルでは、音響領域シフトを含む現実のシナリオにデプロイすると、大幅な性能劣化が発生する。
テスト時適応(TTA)は、ソースデータやラベルへのアクセスを必要とせずに、推論時にそのようなドメインシフトに対処するための実行可能な戦略として登場した。
E-BATSは、音声基礎モデルのために明示的に設計された、効率的なBAckproagation-free TTAフレームワークである。
論文 参考訳(メタデータ) (2025-06-08T10:33:37Z) - CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions [6.2486440301992605]
本稿では,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を統合した総合的なフレームワークであるUser-VLM 360degを提案する。
提案手法は,(1)視覚言語信号を用いてリアルタイムに対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360degの社会動機的相互作用データセットをキュレートした。
論文 参考訳(メタデータ) (2025-02-15T02:25:49Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。