論文の概要: LipLearner: Customizable Silent Speech Interactions on Mobile Devices
- arxiv url: http://arxiv.org/abs/2302.05907v1
- Date: Sun, 12 Feb 2023 13:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:59:03.119411
- Title: LipLearner: Customizable Silent Speech Interactions on Mobile Devices
- Title(参考訳): liplearner: モバイルデバイス上のサイレント音声インタラクションをカスタマイズする
- Authors: Zixiong Su, Shitao Fang, Jun Rekimoto
- Abstract要約: コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。
本モデルでは, 照明, 姿勢, ジェスチャー条件に高いロバスト性を示す。
ユーザスタディでは、LipLearnerを使うことで、オンラインのインクリメンタル学習スキームによって保証された高い信頼性で、独自のコマンドを定義できるようになった。
- 参考スコア(独自算出の注目度): 15.445920726854595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Silent speech interface is a promising technology that enables private
communications in natural language. However, previous approaches only support a
small and inflexible vocabulary, which leads to limited expressiveness. We
leverage contrastive learning to learn efficient lipreading representations,
enabling few-shot command customization with minimal user effort. Our model
exhibits high robustness to different lighting, posture, and gesture conditions
on an in-the-wild dataset. For 25-command classification, an F1-score of 0.8947
is achievable only using one shot, and its performance can be further boosted
by adaptively learning from more data. This generalizability allowed us to
develop a mobile silent speech interface empowered with on-device fine-tuning
and visual keyword spotting. A user study demonstrated that with LipLearner,
users could define their own commands with high reliability guaranteed by an
online incremental learning scheme. Subjective feedback indicated that our
system provides essential functionalities for customizable silent speech
interactions with high usability and learnability.
- Abstract(参考訳): silent speech interfaceは、自然言語でプライベートなコミュニケーションを可能にする有望な技術である。
しかし、以前のアプローチでは、小さく柔軟性のない語彙しかサポートしておらず、表現力に制限がある。
コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。
本モデルでは, 照明, 姿勢, ジェスチャー条件の異なるデータセットに対して高いロバスト性を示す。
25コマンドの分類では、f1-score 0.8947は1ショットのみを使用して達成可能であり、より多くのデータから適応的に学習することで性能をさらに向上させることができる。
この一般化により、デバイス上での微調整と視覚的キーワードスポッティングによるモバイルサイレント音声インタフェースの開発が可能となった。
ユーザ調査によれば、liplearnerを使えば、オンラインのインクリメンタルな学習方式によって、信頼性の高い独自のコマンドを定義することができる。
主観的フィードバックは,高いユーザビリティと学習性を備えた音声対話をカスタマイズする上で,本システムは必須の機能であることを示した。
関連論文リスト
- Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。
本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Improving Device Directedness Classification of Utterances with Semantic
Lexical Features [9.43023411463796]
意味論的特徴と軽量音響特徴を組み合わせた指向性分類器を提案する。
混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。
論文 参考訳(メタデータ) (2020-09-29T20:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。