論文の概要: Joint Speech Transcription and Translation: Pseudo-Labeling with
Out-of-Distribution Data
- arxiv url: http://arxiv.org/abs/2212.09982v1
- Date: Tue, 20 Dec 2022 03:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:59:17.812810
- Title: Joint Speech Transcription and Translation: Pseudo-Labeling with
Out-of-Distribution Data
- Title(参考訳): 共同音声の転写と翻訳:分布外データを用いた擬似ラベル
- Authors: Mozhdeh Gheini, Tatiana Likhomanenko, Matthias Sperber, Hendra
Setiawan
- Abstract要約: 提案手法である音声の合成と翻訳について,疑似ラベリングを用いて検討する。
このようなデータ不足の状況下では、ラベル付けされていないデータは、教師付きデータから大きく異なる可能性がある。
擬似ラベル解析と処理により,バニラの擬似ラベル設定に付加的な利得が得られることを示す。
- 参考スコア(独自算出の注目度): 13.80741649216299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training has been shown to be helpful in addressing data scarcity for
many domains, including vision, speech, and language. Specifically,
self-training, or pseudo-labeling, labels unsupervised data and adds that to
the training pool. In this work, we investigate and use pseudo-labeling for a
recently proposed novel setup: joint transcription and translation of speech,
which suffers from an absence of sufficient data resources. We show that under
such data-deficient circumstances, the unlabeled data can significantly vary in
domain from the supervised data, which results in pseudo-label quality
degradation. We investigate two categories of remedies that require no
additional supervision and target the domain mismatch: pseudo-label filtering
and data augmentation. We show that pseudo-label analysis and processing as
such results in additional gains on top of the vanilla pseudo-labeling setup
resulting in total improvements of up to 0.6% absolute WER and 2.2 BLEU points.
- Abstract(参考訳): 自己学習は、ビジョン、スピーチ、言語など、多くの領域におけるデータの不足に対処する上で有用であることが示されている。
具体的には、自己学習、または擬似ラベル付けは、教師なしのデータをラベル付けし、トレーニングプールに追加する。
本研究では,最近提案されている,データ資源の不足に苦しむ音声の同時転写と翻訳という新しい設定について,疑似ラベル法の検討と使用について述べる。
このようなデータ不足の状況下では、ラベルなしデータは教師付きデータからドメインに大きく変化し、擬似ラベル品質が劣化することを示す。
我々は,追加の監視を必要とせず,擬似ラベルフィルタリングとデータ拡張という,ドメインミスマッチを対象とするリメディエーションの2つのカテゴリを調査した。
擬似ラベル解析および処理により,バニラの擬似ラベル設定が向上し,最大で0.6%の絶対値と2.2のBLEU点が向上したことを示す。
関連論文リスト
- GuidedNet: Semi-Supervised Multi-Organ Segmentation via Labeled Data Guide Unlabeled Data [4.775846640214768]
半監督型多臓器画像分割は、医師が疾患の診断と治療計画を改善するのに役立つ。
キーとなる概念は、ラベル付きデータとラベルなしデータからのボクセル機能は、同じクラスに属する可能性が高い機能空間で互いに近接しているということである。
我々は、ラベル付きデータから得られた事前知識を活用してラベルなしデータのトレーニングをガイドする知識伝達クロス擬似ラベルスーパービジョン(KT-CPS)戦略を導入する。
論文 参考訳(メタデータ) (2024-08-09T07:46:01Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Semi-supervised Relation Extraction via Incremental Meta Self-Training [56.633441255756075]
半教師付き関係抽出法は,限られたサンプルからの学習に加え,ラベルのないデータを活用することを目的としている。
既存の自己学習手法は段階的なドリフト問題に悩まされ、未ラベルデータにノイズのある擬似ラベルが組み込まれている。
本稿では,リレーショナルラベル生成ネットワークが,メタオブジェクトとしてリレーショナル分類ネットワークを成功・失敗に導くことによって,擬似ラベルの品質評価を生成するメタSREという手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T03:54:11Z) - Improving Adversarial Robustness via Unlabeled Out-of-Domain Data [30.58040078862511]
本研究では,ドメイン外のラベルなしデータを活用することで,敵のロバスト性を向上する方法について検討する。
ラベル付きデータと同じドメインではなく、シフトしたドメインからラベル付きデータがやってくると、より良い敵のロバスト性が得られるような設定を示す。
論文 参考訳(メタデータ) (2020-06-15T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。