論文の概要: Lexical Access Model for Italian -- Modeling human speech processing:
identification of words in running speech toward lexical access based on the
detection of landmarks and other acoustic cues to features
- arxiv url: http://arxiv.org/abs/2107.02720v1
- Date: Thu, 24 Jun 2021 10:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-11 11:33:43.274963
- Title: Lexical Access Model for Italian -- Modeling human speech processing:
identification of words in running speech toward lexical access based on the
detection of landmarks and other acoustic cues to features
- Title(参考訳): イタリア語の語彙アクセスモデル --人間の音声処理のモデル化--ランドマークの検出と特徴への音響的手がかりに基づく語彙アクセスに向けての音声中の単語の識別
- Authors: Maria-Gabriella Di Benedetto, Stefanie Shattuck-Hufnagel, Jeung-Yoon
Choi, Luca De Nardis, Javier Arango, Ian Chan, Alec DeCaprio
- Abstract要約: 本研究の目的は、発話中の単語を識別する際、人間を模倣するシステムを開発することである。
我々はスティーブンスの語彙アクセスモデルに基づくイタリア語の音声認識システムを構築した。
- 参考スコア(独自算出の注目度): 2.033475676482581
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modelling the process that a listener actuates in deriving the words intended
by a speaker requires setting a hypothesis on how lexical items are stored in
memory. This work aims at developing a system that imitates humans when
identifying words in running speech and, in this way, provide a framework to
better understand human speech processing. We build a speech recognizer for
Italian based on the principles of Stevens' model of Lexical Access in which
words are stored as hierarchical arrangements of distinctive features (Stevens,
K. N. (2002). "Toward a model for lexical access based on acoustic landmarks
and distinctive features," J. Acoust. Soc. Am., 111(4):1872-1891). Over the
past few decades, the Speech Communication Group at the Massachusetts Institute
of Technology (MIT) developed a speech recognition system for English based on
this approach. Italian will be the first language beyond English to be
explored; the extension to another language provides the opportunity to test
the hypothesis that words are represented in memory as a set of
hierarchically-arranged distinctive features, and reveal which of the
underlying mechanisms may have a language-independent nature. This paper also
introduces a new Lexical Access corpus, the LaMIT database, created and labeled
specifically for this work, that will be provided freely to the speech research
community. Future developments will test the hypothesis that specific acoustic
discontinuities - called landmarks - that serve as cues to features, are
language independent, while other cues may be language-dependent, with powerful
implications for understanding how the human brain recognizes speech.
- Abstract(参考訳): リスナーが話者が意図する単語を導出する過程をモデル化するには、語彙項目をメモリに格納する方法に関する仮説を設定する必要がある。
本研究は,発話中の単語を模倣するシステムの構築を目標とし,人間の発話処理をより理解するための枠組みを提供する。
我々はStevens, K. N. (2002) において, 単語を特徴的特徴の階層的配列として格納する, スティーブンスの語彙アクセスモデルに基づくイタリア語の音声認識システムを構築した。
「音響ランドマークと特徴に基づく語彙アクセスモデルに向けて」とj. acoustは述べている。
Soc
Am., 111(4):1872-1891)。
過去数十年にわたり、マサチューセッツ工科大学(mit)の音声コミュニケーショングループは、このアプローチに基づいて英語の音声認識システムを開発した。
他の言語への拡張は、単語が階層的に配列された特徴の集合としてメモリ内で表現されるという仮説をテストする機会を与え、根底にあるメカニズムのどれが言語に依存しない性質を持つかを明らかにする。
本研究のために特別に作成・ラベル付けされた新しい語彙アクセスコーパスである lamit database も,音声研究コミュニティに無償で提供される予定である。
将来の発展は、特徴への手がかりとして機能する特定の音響不連続性(ランドマークと呼ばれる)が言語に依存しているという仮説をテストする。
関連論文リスト
- Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文 参考訳(メタデータ) (2020-11-23T13:29:16Z) - Reinforcement learning of minimalist grammars [0.5862282909017474]
最先端の言語技術は、関連するキーワードに対して音響解析された音声信号をスキャンする。
単語はセマンティックスロットに挿入され、ユーザの意図を解釈する。
メンタルレキシコンは、ユーザとのインタラクション中に認知エージェントによって取得されなければならない。
論文 参考訳(メタデータ) (2020-04-30T14:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。