論文の概要: Pre-training for low resource speech-to-intent applications
- arxiv url: http://arxiv.org/abs/2103.16674v1
- Date: Tue, 30 Mar 2021 20:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:25:36.025815
- Title: Pre-training for low resource speech-to-intent applications
- Title(参考訳): 低資源音声対インテントアプリケーションのための事前学習
- Authors: Pu Wang, Hugo Van hamme
- Abstract要約: 本稿では,s2i(user-taught speech-to-intent)システムについて述べる。
ユーザ学習システムは、アクションデモによりユーザの音声入力からスクラッチから学習する。
本稿では、エンドツーエンドASRシステムのエンコーダと、以前のNMF/カプセルネットワークベースのユーザ検出デコーダを組み合わせる。
- 参考スコア(独自算出の注目度): 26.093156590824076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a speech-to-intent (S2I) agent which maps the users' spoken
commands to the agents' desired task actions can be challenging due to the
diverse grammatical and lexical preference of different users. As a remedy, we
discuss a user-taught S2I system in this paper. The user-taught system learns
from scratch from the users' spoken input with action demonstration, which
ensure it is fully matched to the users' way of formulating intents and their
articulation habits. The main issue is the scarce training data due to the user
effort involved. Existing state-of-art approaches in this setting are based on
non-negative matrix factorization (NMF) and capsule networks. In this paper we
combine the encoder of an end-to-end ASR system with the prior NMF/capsule
network-based user-taught decoder, and investigate whether pre-training
methodology can reduce training data requirements for the NMF and capsule
network. Experimental results show the pre-trained ASR-NMF framework
significantly outperforms other models, and also, we discuss limitations of
pre-training with different types of command-and-control(C&C) applications.
- Abstract(参考訳): 音声コマンドをエージェントの所望のタスク行動にマッピングする音声入力エージェント(S2I)の設計は,異なるユーザの文法的・語彙的嗜好の多様さから困難である。
本稿では,ユーザが学習したS2Iシステムについて論じる。
ユーザ学習システムは、ユーザの音声入力から、アクションデモでスクラッチから学習し、ユーザの意図の定式化方法とその調音習慣と完全に一致することを保証する。
主な問題は、ユーザの努力によるトレーニングデータの不足である。
この設定における既存の最先端のアプローチは、非負行列分解(NMF)とカプセルネットワークに基づいている。
本稿では, エンド・ツー・エンドのASRシステムのエンコーダと, 従来のNMF/カプセル・ネットワークベースのユーザ・トレーディング・デコーダを組み合わせ, 事前学習手法がNMFとカプセル・ネットワークのトレーニングデータ要求を低減できるかどうかを検討する。
実験の結果,プレトレーニングされたASR-NMFフレームワークは他のモデルよりも優れており,各種のコマンド・アンド・コントロール(C&C)アプリケーションによる事前トレーニングの制限についても検討した。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - SimCURL: Simple Contrastive User Representation Learning from Command
Sequences [22.92215383896495]
我々は,ラベルのないコマンドシーケンスからユーザ表現を学習する,コントラッシブな自己教師型ディープラーニングフレームワークであるSimCURLを提案する。
我々は、50億以上のコマンドからなる実世界のコマンドシーケンスデータセット上で、我々の手法を訓練し、評価する。
論文 参考訳(メタデータ) (2022-07-29T16:06:03Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - ARTA: Collection and Classification of Ambiguous Requests and Thoughtful
Actions [35.557857101679296]
ヒューマンアシストシステムは、曖昧なユーザリクエストに対して、慎重に適切なアクションを取らなければならない。
あいまいなユーザリクエストを対応するシステムアクションに分類するモデルを開発する。
実験により,PU学習法は一般的な正負学習法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-06-15T09:28:39Z) - BCFNet: A Balanced Collaborative Filtering Network with Attention
Mechanism [106.43103176833371]
協調フィルタリング(CF)ベースの推奨方法が広く研究されている。
BCFNet(Balanced Collaborative Filtering Network)という新しい推薦モデルを提案する。
さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。
論文 参考訳(メタデータ) (2021-03-10T14:59:23Z) - Reinforced Imitative Graph Representation Learning for Mobile User
Profiling: An Adversarial Training Perspective [21.829562421373712]
ヒトモビリティモデリングパイプラインにおけるユーザの特性を定量化するための重要なコンポーネントであるモバイルユーザプロファイリングの問題について検討する。
強化学習を活用した模倣型モバイルユーザプロファイリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-07T17:10:00Z) - Pre-Training for Query Rewriting in A Spoken Language Understanding
System [14.902583546933563]
まず、クエリ書き換えのためのニューラル検索に基づくアプローチを提案する。
そして、事前学習された文脈言語埋め込みの成功に触発されて、言語モデリング(LM)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-13T16:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。