Fugu-MT 論文翻訳(概要): LipLearner: Customizable Silent Speech Interactions on Mobile Devices

論文の概要: LipLearner: Customizable Silent Speech Interactions on Mobile Devices

arxiv url: http://arxiv.org/abs/2302.05907v2
Date: Tue, 14 Feb 2023 07:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-15 11:47:40.003417
Title: LipLearner: Customizable Silent Speech Interactions on Mobile Devices
Title（参考訳）: liplearner: モバイルデバイス上のサイレント音声インタラクションをカスタマイズする
Authors: Zixiong Su, Shitao Fang, Jun Rekimoto
Abstract要約: コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。本モデルでは, 照明, 姿勢, ジェスチャー条件に高いロバスト性を示す。ユーザスタディでは、LipLearnerを使うことで、オンラインのインクリメンタル学習スキームによって保証された高い信頼性で、独自のコマンドを定義できるようになった。
参考スコア（独自算出の注目度）: 15.445920726854595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Silent speech interface is a promising technology that enables private communications in natural language. However, previous approaches only support a small and inflexible vocabulary, which leads to limited expressiveness. We leverage contrastive learning to learn efficient lipreading representations, enabling few-shot command customization with minimal user effort. Our model exhibits high robustness to different lighting, posture, and gesture conditions on an in-the-wild dataset. For 25-command classification, an F1-score of 0.8947 is achievable only using one shot, and its performance can be further boosted by adaptively learning from more data. This generalizability allowed us to develop a mobile silent speech interface empowered with on-device fine-tuning and visual keyword spotting. A user study demonstrated that with LipLearner, users could define their own commands with high reliability guaranteed by an online incremental learning scheme. Subjective feedback indicated that our system provides essential functionalities for customizable silent speech interactions with high usability and learnability.
Abstract（参考訳）: silent speech interfaceは、自然言語でプライベートなコミュニケーションを可能にする有望な技術である。しかし、以前のアプローチでは、小さく柔軟性のない語彙しかサポートしておらず、表現力に制限がある。コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。本モデルでは, 照明, 姿勢, ジェスチャー条件の異なるデータセットに対して高いロバスト性を示す。 25コマンドの分類では、f1-score 0.8947は1ショットのみを使用して達成可能であり、より多くのデータから適応的に学習することで性能をさらに向上させることができる。この一般化により、デバイス上での微調整と視覚的キーワードスポッティングによるモバイルサイレント音声インタフェースの開発が可能となった。ユーザ調査によれば、liplearnerを使えば、オンラインのインクリメンタルな学習方式によって、信頼性の高い独自のコマンドを定義することができる。主観的フィードバックは,高いユーザビリティと学習性を備えた音声対話をカスタマイズする上で,本システムは必須の機能であることを示した。

関連論文リスト

SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality [6.523396381538382]
SpeechLessは、パーソナライズされた空間記憶を基盤とした音声ベースの意図制御パラダイムを導入するウェアラブルARアシスタントである。以上の結果から,SpeechLessは日常的な情報アクセスの向上,調音努力の削減,社会的に許容できる使用支援を,多様な日常生活環境において知覚されたユーザビリティや意図決定の精度を著しく低下させることなく実現できることが示唆された。
論文参考訳（メタデータ） (2026-01-31T16:01:32Z)
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs [84.59993864748195]
音声生成から命令理解を分離する「操作主義」に着想を得た新しいパラダイムを提案する。本稿では,LLMが導体として機能するフレームワークであるBatonVoiceを紹介し,ユーザの指示を理解する。別個のTSモデルである「オーケストラ」は、これらの特徴から音声を生成する。
論文参考訳（メタデータ） (2025-09-30T16:52:14Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Real-Time Sign Language Gestures to Speech Transcription using Deep Learning [0.0]
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。 Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
論文参考訳（メタデータ） (2025-08-18T08:25:18Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文参考訳（メタデータ） (2025-05-20T20:20:37Z)
Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳（メタデータ） (2024-09-26T16:44:02Z)
A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文参考訳（メタデータ） (2024-03-03T02:05:17Z)
Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文参考訳（メタデータ） (2023-09-18T14:59:10Z)
Bootstrapping meaning through listening: Unsupervised learning of spoken sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文参考訳（メタデータ） (2022-10-23T21:16:09Z)
Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文参考訳（メタデータ） (2022-10-09T15:40:13Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文参考訳（メタデータ） (2022-03-29T19:08:55Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文参考訳（メタデータ） (2021-04-05T17:12:51Z)
Improving Device Directedness Classification of Utterances with Semantic Lexical Features [9.43023411463796]
意味論的特徴と軽量音響特徴を組み合わせた指向性分類器を提案する。混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。
論文参考訳（メタデータ） (2020-09-29T20:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。