論文の概要: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing
Named Entities for Domain-Specific Machine Translation
- arxiv url: http://arxiv.org/abs/2402.19267v1
- Date: Thu, 29 Feb 2024 15:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:13:39.560288
- Title: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing
Named Entities for Domain-Specific Machine Translation
- Title(参考訳): 教師なしデータ選択のためのロバストガイダンス:ドメイン特化機械翻訳のための名前付きエンティティのキャプチャ
- Authors: Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon
- Abstract要約: 機械翻訳モデルは、しばしば特殊領域内での文の正確な翻訳に失敗する。
教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実践的な戦略となる。
我々は、新しい教師なしデータ選択手法、'Capturing Perplexing Named Entities'を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Employing extensive datasets enables the training of multilingual machine
translation models; however, these models often fail to accurately translate
sentences within specialized domains. Although obtaining and translating
domain-specific data incurs high costs, it is inevitable for high-quality
translations. Hence, finding the most 'effective' data with an unsupervised
setting becomes a practical strategy for reducing labeling costs. Recent
research indicates that this effective data could be found by selecting
'properly difficult data' based on its volume. This means the data should not
be excessively challenging or overly simplistic, especially if the amount of
data is limited. However, we found that establishing a criterion for
unsupervised data selection remains challenging, as the 'proper difficulty'
might vary based on the data domain being trained on. We introduce a novel
unsupervised data selection method, 'Capturing Perplexing Named Entities',
which adopts the maximum inference entropy in translated named entities as a
selection measure. The motivation was that named entities in domain-specific
data are considered the most complex portion of the data and should be
predicted with high confidence. When verified with the 'Korean-English Parallel
Corpus of Specialized Domains,' our method served as a robust guidance for
unsupervised data selection, in contrast to existing methods.
- Abstract(参考訳): 広範なデータセットを使用することで、多言語機械翻訳モデルのトレーニングが可能になるが、これらのモデルは、しばしば専門領域内の文を正確に翻訳することができない。
ドメイン固有のデータの取得と翻訳には高いコストがかかるが、高品質な翻訳は避けられない。
したがって、教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実用的な戦略となる。
近年の研究では、その量に基づいて「非常に難しいデータ」を選択することで、この効果的なデータが見つかることが示されている。
これは、特にデータ量が限られている場合には、データが過度に挑戦的あるいは過度に単純化されるべきではないことを意味する。
しかし、教師なしデータ選択の基準の確立は、訓練中のデータドメインによって「適切な困難」が異なるため、依然として困難であることがわかった。
そこで本研究では,翻訳された名前付きエンティティの最大推論エントロピーを選択尺度として採用する,教師なしデータ選択手法である'capuring perplexing named entities'を提案する。
その動機は、ドメイン固有のデータの名前付きエンティティはデータの最も複雑な部分と見なされ、高い信頼性で予測されるべきである。
本手法は,「韓国英語専門ドメイン並列コーパス」で検証された場合,既存の手法とは対照的に,教師なしデータ選択のための堅牢なガイダンスとして機能する。
関連論文リスト
- Deep Unsupervised Domain Adaptation: A Review of Recent Advances and
Perspectives [16.68091981866261]
対象領域のデータの性能低下に対応するために、教師なし領域適応(UDA)を提案する。
UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。
論文 参考訳(メタデータ) (2022-08-15T20:05:07Z) - Invariance Learning based on Label Hierarchy [17.53032543377636]
Deep Neural Networksは、トレーニングデータに埋め込まれた急激な相関関係を継承する。
Invariance Learning (IL) はこの欠点を克服するために最近開発されている。
本稿では,複数の領域におけるデータトレーニングの要件を克服する新しいILフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T13:31:21Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency
with Weak Annotator [2.8672054847109134]
一部のターゲット問題ドメインでは、学習プロセスを妨げる可能性のあるデータサンプルがあまりありません。
類似のソースドメインからのラベルなしデータを活用した弱い適応学習(wal)手法を提案する。
本実験は,対象領域に限定されたラベル付きデータを含む正確な分類器を学習する手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-15T06:19:25Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。