論文の概要: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing
Named Entities for Domain-Specific Machine Translation
- arxiv url: http://arxiv.org/abs/2402.19267v1
- Date: Thu, 29 Feb 2024 15:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:13:39.560288
- Title: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing
Named Entities for Domain-Specific Machine Translation
- Title(参考訳): 教師なしデータ選択のためのロバストガイダンス:ドメイン特化機械翻訳のための名前付きエンティティのキャプチャ
- Authors: Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon
- Abstract要約: 機械翻訳モデルは、しばしば特殊領域内での文の正確な翻訳に失敗する。
教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実践的な戦略となる。
我々は、新しい教師なしデータ選択手法、'Capturing Perplexing Named Entities'を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Employing extensive datasets enables the training of multilingual machine
translation models; however, these models often fail to accurately translate
sentences within specialized domains. Although obtaining and translating
domain-specific data incurs high costs, it is inevitable for high-quality
translations. Hence, finding the most 'effective' data with an unsupervised
setting becomes a practical strategy for reducing labeling costs. Recent
research indicates that this effective data could be found by selecting
'properly difficult data' based on its volume. This means the data should not
be excessively challenging or overly simplistic, especially if the amount of
data is limited. However, we found that establishing a criterion for
unsupervised data selection remains challenging, as the 'proper difficulty'
might vary based on the data domain being trained on. We introduce a novel
unsupervised data selection method, 'Capturing Perplexing Named Entities',
which adopts the maximum inference entropy in translated named entities as a
selection measure. The motivation was that named entities in domain-specific
data are considered the most complex portion of the data and should be
predicted with high confidence. When verified with the 'Korean-English Parallel
Corpus of Specialized Domains,' our method served as a robust guidance for
unsupervised data selection, in contrast to existing methods.
- Abstract(参考訳): 広範なデータセットを使用することで、多言語機械翻訳モデルのトレーニングが可能になるが、これらのモデルは、しばしば専門領域内の文を正確に翻訳することができない。
ドメイン固有のデータの取得と翻訳には高いコストがかかるが、高品質な翻訳は避けられない。
したがって、教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実用的な戦略となる。
近年の研究では、その量に基づいて「非常に難しいデータ」を選択することで、この効果的なデータが見つかることが示されている。
これは、特にデータ量が限られている場合には、データが過度に挑戦的あるいは過度に単純化されるべきではないことを意味する。
しかし、教師なしデータ選択の基準の確立は、訓練中のデータドメインによって「適切な困難」が異なるため、依然として困難であることがわかった。
そこで本研究では,翻訳された名前付きエンティティの最大推論エントロピーを選択尺度として採用する,教師なしデータ選択手法である'capuring perplexing named entities'を提案する。
その動機は、ドメイン固有のデータの名前付きエンティティはデータの最も複雑な部分と見なされ、高い信頼性で予測されるべきである。
本手法は,「韓国英語専門ドメイン並列コーパス」で検証された場合,既存の手法とは対照的に,教師なしデータ選択のための堅牢なガイダンスとして機能する。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Joint Speech Transcription and Translation: Pseudo-Labeling with
Out-of-Distribution Data [13.80741649216299]
提案手法である音声の合成と翻訳について,疑似ラベリングを用いて検討する。
このようなデータ不足の状況下では、ラベル付けされていないデータは、教師付きデータから大きく異なる可能性がある。
擬似ラベル解析と処理により,バニラの擬似ラベル設定に付加的な利得が得られることを示す。
論文 参考訳(メタデータ) (2022-12-20T03:54:44Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency
with Weak Annotator [2.8672054847109134]
一部のターゲット問題ドメインでは、学習プロセスを妨げる可能性のあるデータサンプルがあまりありません。
類似のソースドメインからのラベルなしデータを活用した弱い適応学習(wal)手法を提案する。
本実験は,対象領域に限定されたラベル付きデータを含む正確な分類器を学習する手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-15T06:19:25Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。