論文の概要: The Impact of Code-switched Synthetic Data Quality is Task Dependent: Insights from MT and ASR
- arxiv url: http://arxiv.org/abs/2503.23576v1
- Date: Sun, 30 Mar 2025 19:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.190309
- Title: The Impact of Code-switched Synthetic Data Quality is Task Dependent: Insights from MT and ASR
- Title(参考訳): コード切替合成データ品質がタスク依存に与える影響:MTとASRによる考察
- Authors: Injy Hamed, Ngoc Thang Vu, Nizar Habash,
- Abstract要約: 言語間の交互化を行うコードスイッチングは、ユーザフレンドリーな言語技術を構築するために対処する必要がある、一般的なグローバルな現象として登場した。
現在の文献では、合成データの品質とNLPタスクの改善の関係を理解するための包括的な研究が欠如している。
我々は、自動音声認識(ASR)とカスケード音声翻訳(ST)による機械翻訳について、この方向で行われた以前の研究を拡張した。
我々の実験には、語彙置換、言語理論、後方翻訳など、幅広い拡張技術が含まれています。
- 参考スコア(独自算出の注目度): 33.40409334053485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching, the act of alternating between languages, emerged as a prevalent global phenomenon that needs to be addressed for building user-friendly language technologies. A main bottleneck in this pursuit is data scarcity, motivating research in the direction of code-switched data augmentation. However, current literature lacks comprehensive studies that enable us to understand the relation between the quality of synthetic data and improvements on NLP tasks. We extend previous research conducted in this direction on machine translation (MT) with results on automatic speech recognition (ASR) and cascaded speech translation (ST) to test generalizability of findings. Our experiments involve a wide range of augmentation techniques, covering lexical replacements, linguistic theories, and back-translation. Based on the results of MT, ASR, and ST, we draw conclusions and insights regarding the efficacy of various augmentation techniques and the impact of quality on performance.
- Abstract(参考訳): 言語間の交互化を行うコードスイッチングは、ユーザフレンドリーな言語技術を構築するために対処する必要がある、一般的なグローバルな現象として登場した。
この追求の主なボトルネックはデータの不足であり、コード変更によるデータ拡張の方向の研究を動機付けている。
しかし,現在の文献では,合成データの品質とNLPタスクの改善の関係を理解するための総合的な研究が欠如している。
本研究は, 機械翻訳(MT)における従来の研究を拡張し, 自動音声認識(ASR)とカスケード音声翻訳(ST)を用いて, 結果の一般化性を検証した。
我々の実験には、語彙置換、言語理論、後方翻訳など、幅広い拡張技術が含まれています。
MT,ASR,STの結果をもとに,様々な拡張技術の有効性と品質がパフォーマンスに与える影響について,結論と知見を導出する。
関連論文リスト
- American Sign Language Video to Text Translation [0.0]
テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
論文 参考訳(メタデータ) (2024-02-11T17:46:33Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Data Augmentation Techniques for Machine Translation of Code-Switched
Texts: A Comparative Study [37.542853327876074]
語彙置換、言語理論、バックトランスレーションの3つの一般的なアプローチを比較した。
BTおよびCSW予測に基づく語彙置換は,CSW並列データに基づいて訓練され,両タスクにおいて最善であることを示す。
論文 参考訳(メタデータ) (2023-10-23T18:09:41Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Machine Translation Impact in E-commerce Multilingual Search [0.0]
言語間情報検索は機械翻訳の品質と高い相関関係を持つ。
クエリ翻訳の品質を改善することで、検索性能をさらに向上するメリットはほとんど、あるいは全く得られない、というしきい値が存在するかもしれない。
論文 参考訳(メタデータ) (2023-01-31T21:59:35Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named
Entity Recognition [5.161531917413708]
本研究では,条件付きランダムフィールド層を有する変圧器ベースネットワークを提案する。
本研究は,移動学習が形態的に豊かな言語処理に与える影響を定量化する文献に寄与する。
論文 参考訳(メタデータ) (2020-05-14T06:54:07Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。