論文の概要: BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models
- arxiv url: http://arxiv.org/abs/2306.01506v2
- Date: Thu, 8 Jun 2023 12:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:30:52.810905
- Title: BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models
- Title(参考訳): BabySLM:自己教師型音声言語モデルの言語習得フレンドリーなベンチマーク
- Authors: Marvin Lavechin and Yaya Sy and Hadrien Titeux and Mar\'ia Andrea Cruz
Bland\'on and Okko R\"as\"anen and Herv\'e Bredin and Emmanuel Dupoux and
Alejandrina Cristia
- Abstract要約: 音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
- 参考スコア(独自算出の注目度): 56.93604813379634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised techniques for learning speech representations have been
shown to develop linguistic competence from exposure to speech without the need
for human labels. In order to fully realize the potential of these approaches
and further our understanding of how infants learn language, simulations must
closely emulate real-life situations by training on developmentally plausible
corpora and benchmarking against appropriate test sets. To this end, we propose
a language-acquisition-friendly benchmark to probe spoken language models at
the lexical and syntactic levels, both of which are compatible with the
vocabulary typical of children's language experiences. This paper introduces
the benchmark and summarizes a range of experiments showing its usefulness. In
addition, we highlight two exciting challenges that need to be addressed for
further progress: bridging the gap between text and speech and between clean
speech and in-the-wild speech.
- Abstract(参考訳): 音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
これらのアプローチの可能性を十分に実現し、幼児が言語を学ぶ方法の理解を深めるために、シミュレーションは発達的に妥当なコーパスのトレーニングと適切なテストセットに対するベンチマークによって、現実の状況を密にエミュレートする必要がある。
そこで本研究では,子どもの言語経験の典型的語彙に適合する語彙と構文レベルでの発話言語モデルを調査するための言語獲得フレンドリなベンチマークを提案する。
本稿では,本ベンチマークを紹介し,その有用性を示す実験を概説する。
さらに,テキストと音声のギャップを埋めることと,クリーンな音声と単語間のギャップを埋めることという,さらなる進歩のために対処する必要がある2つのエキサイティングな課題を強調した。
関連論文リスト
- DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Saving the legacy of Hero Ibash: Evaluating Four Language Models for
Aminoacian [0.8158530638728501]
本研究は,未探索のアミノアシアン語における4つの最先端言語モデルを評価する。
テキスト生成、セマンティックコヒーレンス、文脈理解における適応性、有効性、限界を精査する。
論文 参考訳(メタデータ) (2024-02-28T07:22:13Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - DALL-E 2 Fails to Reliably Capture Common Syntactic Processes [0.0]
我々は,DALL-E2が構成性に関連する8つの文法的現象を捉える能力について分析した。
DALL-E 2は構文に整合した意味を確実に推測できないことを示す。
論文 参考訳(メタデータ) (2022-10-23T23:56:54Z) - Language Acquisition is Embodied, Interactive, Emotive: a Research
Proposal [2.639737913330821]
音声対話の対話的設定における具体化と感情の役割に関する文献を,児童の言語学習に必要な前提条件として検討する。
我々は,現在のトランスフォーマーモデルと単語レベルの基底モデルを利用する意味論のモデルをスケッチし,私たちの意味モデルを利用するロボット対話システムを説明する。
論文 参考訳(メタデータ) (2021-05-10T19:40:17Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。