Fugu-MT 論文翻訳(概要): Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios

論文の概要: Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios

arxiv url: http://arxiv.org/abs/2012.00876v1
Date: Tue, 1 Dec 2020 22:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-30 19:40:38.346474
Title: Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios
Title（参考訳）: 低資源シナリオにおける音響事例からの言語家族の自動同定
Authors: Peter Wu, Yifan Zhong, Alan W Black
Abstract要約: ディープラーニングを用いて言語類似性を解析する手法を提案する。すなわち、Willernessデータセットのモデルをトレーニングし、その潜在空間が古典的な言語家族の発見とどのように比較されるかを調べる。
参考スコア（独自算出の注目度）: 48.57072884674938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing multilingual speech NLP works focus on a relatively small subset of languages, and thus current linguistic understanding of languages predominantly stems from classical approaches. In this work, we propose a method to analyze language similarity using deep learning. Namely, we train a model on the Wilderness dataset and investigate how its latent space compares with classical language family findings. Our approach provides a new direction for cross-lingual data augmentation in any speech-based NLP task.
Abstract（参考訳）: 既存の多言語音声NLPは比較的少数の言語に焦点を合わせており、現代の言語理解は主に古典的アプローチに由来する。本研究では,ディープラーニングを用いて言語類似性を分析する手法を提案する。すなわち,荒野データセット上でモデルを訓練し,その潜在空間と古典語族との比較について検討する。提案手法は,音声に基づくNLPタスクにおいて,言語間データ拡張のための新たな方向を提供する。

関連論文リスト

Deep Language Geometry: Constructing a Metric Space from LLM Weights [0.0]
本稿では,現代大規模言語モデル (LLM) の内部重み付けの活性化を利用して,計量空間を構築する新しいフレームワークを提案する。本手法は,適応型プルーニングアルゴリズムを用いて,重み付け重み付けスコアを演算することで,高次元ベクトル表現を自動的に導出する。多様なデータセットと多言語LLMにまたがるアプローチを検証し、106言語をカバーする。
論文参考訳（メタデータ） (2025-08-08T13:48:26Z)
Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文参考訳（メタデータ） (2025-06-10T08:33:34Z)
From Isolates to Families: Using Neural Networks for Automated Language Affiliation [9.182884165239996]
歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に複雑なワークフローを用いて行われる。多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトを開発するための新たな道を開くのに役立つだろう。本研究では,1000言語以上の言語から得られた語彙データと文法データを用いて,個々の言語を家族に分類するニューラルネットワークモデルを提案する。
論文参考訳（メタデータ） (2025-02-17T11:25:32Z)
Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis [7.751856268560216]
本稿では,低音源言語における音声処理における言語的類似性が言語間音声表現に与える影響について検討する。音韻学的に類似した言語を使用すると、単言語訓練よりも55.6%の相対的な改善が達成される。
論文参考訳（メタデータ） (2025-01-12T13:29:24Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文参考訳（メタデータ） (2023-11-21T09:59:29Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
Robust Open-Set Spoken Language Identification and the CU MultiLang Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文参考訳（メタデータ） (2023-08-29T00:44:27Z)
Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。 ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文参考訳（メタデータ） (2022-09-26T10:42:17Z)
Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum Learning [5.865807597752895]
我々は、自動カリキュラム学習に依存するマルチタスク学習の手法を採用し、外来言語の性能解析を動的に最適化する。この手法はゼロショット設定における一様・一様サンプリングよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-03-16T11:33:20Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
Multilingual Chart-based Constituency Parse Extraction from Pre-trained Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文参考訳（メタデータ） (2020-04-08T05:42:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。