論文の概要: Putting Natural in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2305.04572v2
- Date: Tue, 23 May 2023 14:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:35:24.779095
- Title: Putting Natural in Natural Language Processing
- Title(参考訳): 自然言語処理に自然を置く
- Authors: Grzegorz Chrupa{\l}a
- Abstract要約: NLPの分野は、音声言語よりも文字処理に重点を置いている。
近年の深層学習の進歩は,音声処理と主流NLPの手法に顕著な収束をもたらしている。
真に自然言語処理は、他の言語科学とのより良い統合につながる可能性がある。
- 参考スコア(独自算出の注目度): 11.746833714322156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human language is firstly spoken and only secondarily written. Text, however,
is a very convenient and efficient representation of language, and modern
civilization has made it ubiquitous. Thus the field of NLP has overwhelmingly
focused on processing written rather than spoken language. Work on spoken
language, on the other hand, has been siloed off within the largely separate
speech processing community which has been inordinately preoccupied with
transcribing speech into text. Recent advances in deep learning have led to a
fortuitous convergence in methods between speech processing and mainstream NLP.
Arguably, the time is ripe for a unification of these two fields, and for
starting to take spoken language seriously as the primary mode of human
communication. Truly natural language processing could lead to better
integration with the rest of language science and could lead to systems which
are more data-efficient and more human-like, and which can communicate beyond
the textual modality.
- Abstract(参考訳): 言語は第一に話し、第二に書かれる。
しかし、テキストは非常に便利で効率的な言語表現であり、近代文明はそれをユビキタスにしている。
したがって、NLPの分野は、音声言語よりも文章の処理に重点を置いてきた。
一方、音声言語に関する作業は、音声をテキストに書き込むことに不注意な、ほぼ独立した音声処理コミュニティ内でサイロ化されている。
近年の深層学習の進歩は,音声処理と主流NLPの手法に顕著な収束をもたらしている。
おそらく、この2つの分野を統一し、人間のコミュニケーションの第一の手段として音声言語を真剣に取り始めるための時期は熟しているだろう。
真に自然言語処理は、他の言語科学とのより良い統合につながる可能性があり、よりデータ効率が高く、より人間らしく、テキストのモダリティを超えてコミュニケーションできるシステムにつながる可能性がある。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Evolution of Natural Language Processing Technology: Not Just Language
Processing Towards General Purpose AI [0.0]
本報告は,最先端NLPがいかにして「実践が完璧である」原理を実現するかの技術的説明を提供する。
深層学習を用いて大量のテキストデータを学習した結果,初期予測を超える成果が報告されている。
大量のテキストデータを用いて「実践は完璧」という概念を具現化した学習者の正確な例である。
論文 参考訳(メタデータ) (2023-10-10T00:41:38Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with
Articulatory Features [30.37026279162593]
本研究では,言語間で保持される音素表現を学習するために,音素の同一性から導かれる埋め込みではなく,調音ベクトルから導出される埋め込みを用いる。
これにより、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。
論文 参考訳(メタデータ) (2022-03-07T07:58:01Z) - Natural Language Generation Using Link Grammar for General
Conversational Intelligence [0.0]
Link Grammarデータベースを用いて,文法的に有効な文を自動的に生成する手法を提案する。
この自然言語生成方法は、最先端のベースラインをはるかに上回り、プロトAGI質問応答パイプラインの最終コンポーネントとして機能する。
論文 参考訳(メタデータ) (2021-04-19T06:16:07Z) - Challenges Encountered in Turkish Natural Language Processing Studies [1.52292571922932]
自然言語処理は、人工知能と言語学を組み合わせたコンピュータサイエンスの分野です。
本研究では,トルコ語の自然言語処理における興味深い特徴について述べる。
論文 参考訳(メタデータ) (2021-01-21T08:30:33Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。