論文の概要: Proceedings of the ISCA/ITG Workshop on Diversity in Large Speech and Language Models
- arxiv url: http://arxiv.org/abs/2503.10298v2
- Date: Fri, 14 Mar 2025 06:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:40.629929
- Title: Proceedings of the ISCA/ITG Workshop on Diversity in Large Speech and Language Models
- Title(参考訳): 大規模音声・言語モデルにおける多様性に関するISCA/ITGワークショップの開催報告
- Authors: Sebastian Möller, Pia Knoeferle, Britta Schulte, Nils Feldhus,
- Abstract要約: 現代の技術は1つまたは複数の言語の一般的な知識を表現するために大きなモデルに依存している。
人間がそのような技術と対話するとき、その相互作用の有効性は、人間が同じタイプの言語をどこまで使うかによって影響される。
- 参考スコア(独自算出の注目度): 11.46358189300007
- License:
- Abstract: Machine learning techniques have conquered many different tasks in speech and natural language processing, such as speech recognition, information extraction, text and speech generation, and human machine interaction using natural language or speech (chatbots). Modern techniques typically rely on large models for representing general knowledge of one or several languages (Large Language Models, LLMs), or for representing speech and general audio characteristics. These models have been trained with large amounts of speech and language data, typically including web content. When humans interact with such technologies, the effectiveness of the interaction will be influenced by how far humans make use of the same type of language the models have been trained on or, in other words, if the models are able to generalize to the language used by humans when interacting with the technology. This may lead to some gradual forms of adaptation in human speech and language production, and users who do not adapt may be excluded from efficient use of such technologies. On top of this, as commercial model development follows market needs, under-represented languages and dialects/sociolects may decrease in terms of priorities. Furthermore, for many lesser spoken languages the necessary data is not available, which will worsen a digital divide in speech and language technology usage. The workshop sets out to discuss this problem based on scientific contributions from the perspective of computer science and linguistics (including computational linguistics and NLP).
- Abstract(参考訳): 機械学習技術は、音声認識、情報抽出、テキストと音声生成、自然言語や音声(チャットボット)を用いたヒューマンマシンインタラクションなど、音声認識や自然言語処理において多くのタスクを克服してきた。
現代の技術は、1つまたは複数の言語の一般的な知識(Large Language Models, LLMs)を表すために、あるいは音声と一般的な音声の特徴を表現するために、大きなモデルに依存している。
これらのモデルは、通常、Webコンテンツを含む大量の音声と言語データで訓練されている。
人間がそのような技術と対話する場合、その相互作用の有効性は、モデルがトレーニングした同じタイプの言語を人間がどこまで使うか、つまり、モデルが技術と対話する際にヒトが使用する言語に一般化できるなら、影響を受けます。
これは、人間のスピーチや言語生産における段階的な適応につながり、適応しないユーザは、そのような技術の効率的な利用から除外される可能性がある。
これに加えて、商業モデル開発は市場のニーズに沿うため、表現不足の言語や方言や社会は優先順位の観点から減少する可能性がある。
さらに、多くのより少ない言語では、必要なデータが入手できないため、音声と言語技術の使用のデジタル分割が悪化する。
ワークショップでは、コンピュータ科学と言語学(計算言語学やNLPを含む)の観点から、科学的貢献に基づいてこの問題について議論する。
関連論文リスト
- We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。
学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - What Artificial Neural Networks Can Tell Us About Human Language
Acquisition [47.761188531404066]
自然言語処理のための機械学習の急速な進歩は、人間がどのように言語を学ぶかについての議論を変革する可能性がある。
計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たず,モデル学習者を訓練する必要がある。
論文 参考訳(メタデータ) (2022-08-17T00:12:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。