論文の概要: Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech
- arxiv url: http://arxiv.org/abs/2112.13758v1
- Date: Mon, 27 Dec 2021 16:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 14:14:35.818204
- Title: Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech
- Title(参考訳): ギャップを埋める:深い音響表現を用いて知覚と生音声から基底言語を学習する
- Authors: Gaoussou Youssouf Kebe, Luke E. Richards, Edward Raff, Francis
Ferraro, Cynthia Matuszek
- Abstract要約: 自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
- 参考スコア(独自算出の注目度): 26.076534338576234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to understand grounded language, which connects natural language to
percepts, is a critical research area. Prior work in grounded language
acquisition has focused primarily on textual inputs. In this work we
demonstrate the feasibility of performing grounded language acquisition on
paired visual percepts and raw speech inputs. This will allow interactions in
which language about novel tasks and environments is learned from end users,
reducing dependence on textual inputs and potentially mitigating the effects of
demographic bias found in widely available speech recognition systems. We
leverage recent work in self-supervised speech representation models and show
that learned representations of speech can make language grounding systems more
inclusive towards specific groups while maintaining or even increasing general
performance.
- Abstract(参考訳): 自然言語と知覚をつなぐ基底言語を理解することを学ぶことは重要な研究分野である。
基礎言語習得の以前の仕事は、主にテキスト入力に焦点を当てていた。
本研究は,対の視覚知覚と生の音声入力を用いた基礎的言語獲得の実現可能性を示す。
これにより、エンドユーザーから新しいタスクや環境に関する言語が学習され、テキスト入力への依存を減らし、広く利用可能な音声認識システムで見られる人口統計バイアスの影響を軽減することができる。
自己教師型音声表現モデルにおける最近の研究を活用し、学習した音声表現が言語基盤システムをより特定のグループに包括的にし、一般的な性能を維持したり、さらに向上させたりすることができることを示す。
関連論文リスト
- CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Neural Variational Learning for Grounded Language Acquisition [14.567067583556714]
本稿では,言語が特定の定義された用語のカテゴリを含まない視覚的知覚に基礎を置いている学習システムを提案する。
この生成手法は,低リソース環境下での視覚的カテゴリを事前に指定することなく,言語接地において有望な結果を示すことを示す。
論文 参考訳(メタデータ) (2021-07-20T20:55:02Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。