論文の概要: Analyzing the Representational Geometry of Acoustic Word Embeddings
- arxiv url: http://arxiv.org/abs/2301.03012v1
- Date: Sun, 8 Jan 2023 10:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:31:24.227720
- Title: Analyzing the Representational Geometry of Acoustic Word Embeddings
- Title(参考訳): 音響単語埋め込みの表現幾何学の解析
- Authors: Badr M. Abdullah, Dietrich Klakow
- Abstract要約: 音響単語埋め込み(AWEs)は、同じ単語の異なる音響例が近傍に投影されるようなベクトル表現である。
本稿では、英語の音声から学んだAWEを分析分析し、学習対象とアーキテクチャの選択がどのように表現プロファイルを形作るかを検討する。
- 参考スコア(独自算出の注目度): 22.677210029168588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic word embeddings (AWEs) are vector representations such that
different acoustic exemplars of the same word are projected nearby in the
embedding space. In addition to their use in speech technology applications
such as spoken term discovery and keyword spotting, AWE models have been
adopted as models of spoken-word processing in several cognitively motivated
studies and have been shown to exhibit human-like performance in some auditory
processing tasks. Nevertheless, the representational geometry of AWEs remains
an under-explored topic that has not been studied in the literature. In this
paper, we take a closer analytical look at AWEs learned from English speech and
study how the choice of the learning objective and the architecture shapes
their representational profile. To this end, we employ a set of analytic
techniques from machine learning and neuroscience in three different analyses:
embedding space uniformity, word discriminability, and representational
consistency. Our main findings highlight the prominent role of the learning
objective on shaping the representation profile compared to the model
architecture.
- Abstract(参考訳): 音響ワード埋め込み (awes) は、同じ単語の異なる音響例が埋め込み空間の近傍に投影されるようなベクトル表現である。
音声語探索やキーワードスポッティングなどの音声技術への応用に加えて、AWEモデルは認知的な動機付けのあるいくつかの研究において音声語処理のモデルとして採用され、聴覚処理タスクにおいて人間のようなパフォーマンスを示すことが示されている。
それでも、awesの表現幾何学は、文学では研究されていない未熟な話題である。
本稿では,英語音声から得られたawesの分析的考察を行い,学習目標とアーキテクチャの選択が,その表現的プロファイルをどのように形成するかについて検討する。
この目的のために,我々は,組込み空間均一性,単語識別性,表現的一貫性という3つの異なる分析法において,機械学習と神経科学の一連の分析手法を用いる。
本研究の主な知見は,モデルアーキテクチャと比較して表現プロファイル形成における学習目標の役割を浮き彫りにするものである。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration [17.94683764469626]
我々は,これらのモデルの学習表現が,人間による基本的な表現区別とどのように一致しているかを評価する。
これらのモデルのアーキテクチャの初期層には、音韻と音韻の区別の堅牢な表現が出現している。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出することがわかった。
論文 参考訳(メタデータ) (2023-06-09T20:07:22Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。