論文の概要: Textual Supervision for Visually Grounded Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2010.02806v2
- Date: Wed, 7 Oct 2020 07:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:02:35.651552
- Title: Textual Supervision for Visually Grounded Spoken Language Understanding
- Title(参考訳): 視覚下地音声理解のためのテキスト指導
- Authors: Bertrand Higy, Desmond Elliott, Grzegorz Chrupa{\l}a
- Abstract要約: 音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
- 参考スコア(独自算出の注目度): 51.93744335044475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-grounded models of spoken language understanding extract semantic
information directly from speech, without relying on transcriptions. This is
useful for low-resource languages, where transcriptions can be expensive or
impossible to obtain. Recent work showed that these models can be improved if
transcriptions are available at training time. However, it is not clear how an
end-to-end approach compares to a traditional pipeline-based approach when one
has access to transcriptions. Comparing different strategies, we find that the
pipeline approach works better when enough text is available. With low-resource
languages in mind, we also show that translations can be effectively used in
place of transcriptions but more data is needed to obtain similar results.
- Abstract(参考訳): 音声言語理解の視覚的接頭辞モデルは、書き起こしに依存することなく、音声から直接意味情報を抽出する。
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
しかし、エンドツーエンドのアプローチが、トランスクリプションにアクセスする場合に従来のパイプラインベースのアプローチとどのように比較されるかは明らかではない。
異なる戦略を比較すると、十分なテキストが手に入るとパイプラインアプローチがうまく機能することがわかった。
低リソース言語を念頭に置いて、翻訳は転写の代わりに効果的に利用できるが、同様の結果を得るためにはより多くのデータが必要であることも示している。
関連論文リスト
- TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - TS-Net: OCR Trained to Switch Between Text Transcription Styles [0.0]
Transcription Style Block (TSB) による既存のテキスト認識ネットワーク拡張を提案する。
TSBは、転写規則の明確な知識なしに、複数の転写スタイルを切り替えるデータから学ぶことができます。
TSBは、人工データに対する制御実験において、完全に異なる転写様式を学習できることを示した。
論文 参考訳(メタデータ) (2021-03-09T15:21:40Z) - Enabling Interactive Transcription in an Indigenous Community [23.53585157238112]
本稿では,音声語検出とHuman-in-the-loopを組み合わせた書き起こしワークフローを提案する。
転写の初期段階において、堅牢なASRシステムのトレーニングに利用可能なデータが不十分である場合には、少数の孤立した単語の転写を利用することができる。
論文 参考訳(メタデータ) (2020-11-12T04:41:35Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Consistent Transcription and Translation of Speech [13.652411093089947]
音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
論文 参考訳(メタデータ) (2020-07-24T19:17:26Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。