Fugu-MT 論文翻訳(概要): The importance of fillers for text representations of speech transcripts

論文の概要: The importance of fillers for text representations of speech transcripts

arxiv url: http://arxiv.org/abs/2009.11340v2
Date: Thu, 1 Oct 2020 10:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 16:12:11.835728
Title: The importance of fillers for text representations of speech transcripts
Title（参考訳）: 音声書き起こしのテキスト表現におけるフィラーの重要性
Authors: Tanvi Dinkar, Pierre Colombo, Matthieu Labeau and Chlo\'e Clavel
Abstract要約: 話者の姿勢を予測し,自信を表わす2つの下流課題をモデル化した。我々は, 深くコンテキスト化された埋め込みでフィラーを表現する可能性を探る。
参考スコア（独自算出の注目度）: 8.932213315444404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While being an essential component of spoken language, fillers (e.g."um" or "uh") often remain overlooked in Spoken Language Understanding (SLU) tasks. We explore the possibility of representing them with deep contextualised embeddings, showing improvements on modelling spoken language and two downstream tasks - predicting a speaker's stance and expressed confidence.
Abstract（参考訳）: 音声言語の本質的な構成要素である一方で、補充語(e.g.um" や "uh" など)はスポケン言語理解(SLU)タスクでは見落とされがちである。話者の姿勢を予測し,自信を表わすような,話し言葉のモデル化と2つの下流タスクの改善を示す。

関連論文リスト

DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文参考訳（メタデータ） (2023-10-09T17:59:21Z)
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文参考訳（メタデータ） (2023-06-02T12:54:38Z)
SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。 SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文参考訳（メタデータ） (2023-05-24T05:06:28Z)
Improving Self-Supervised Speech Representations by Disentangling Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文参考訳（メタデータ） (2022-04-20T04:56:14Z)
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文参考訳（メタデータ） (2021-12-27T16:12:30Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。