Fugu-MT 論文翻訳(概要): Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation

論文の概要: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation

arxiv url: http://arxiv.org/abs/2402.19267v1
Date: Thu, 29 Feb 2024 15:38:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:13:39.560288
Title: Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation
Title（参考訳）: 教師なしデータ選択のためのロバストガイダンス:ドメイン特化機械翻訳のための名前付きエンティティのキャプチャ
Authors: Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon
Abstract要約: 機械翻訳モデルは、しばしば特殊領域内での文の正確な翻訳に失敗する。教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実践的な戦略となる。我々は、新しい教師なしデータ選択手法、'Capturing Perplexing Named Entities'を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Employing extensive datasets enables the training of multilingual machine translation models; however, these models often fail to accurately translate sentences within specialized domains. Although obtaining and translating domain-specific data incurs high costs, it is inevitable for high-quality translations. Hence, finding the most 'effective' data with an unsupervised setting becomes a practical strategy for reducing labeling costs. Recent research indicates that this effective data could be found by selecting 'properly difficult data' based on its volume. This means the data should not be excessively challenging or overly simplistic, especially if the amount of data is limited. However, we found that establishing a criterion for unsupervised data selection remains challenging, as the 'proper difficulty' might vary based on the data domain being trained on. We introduce a novel unsupervised data selection method, 'Capturing Perplexing Named Entities', which adopts the maximum inference entropy in translated named entities as a selection measure. The motivation was that named entities in domain-specific data are considered the most complex portion of the data and should be predicted with high confidence. When verified with the 'Korean-English Parallel Corpus of Specialized Domains,' our method served as a robust guidance for unsupervised data selection, in contrast to existing methods.
Abstract（参考訳）: 広範なデータセットを使用することで、多言語機械翻訳モデルのトレーニングが可能になるが、これらのモデルは、しばしば専門領域内の文を正確に翻訳することができない。ドメイン固有のデータの取得と翻訳には高いコストがかかるが、高品質な翻訳は避けられない。したがって、教師なしの設定で最も効果的なデータを見つけることは、ラベリングコストを減らすための実用的な戦略となる。近年の研究では、その量に基づいて「非常に難しいデータ」を選択することで、この効果的なデータが見つかることが示されている。これは、特にデータ量が限られている場合には、データが過度に挑戦的あるいは過度に単純化されるべきではないことを意味する。しかし、教師なしデータ選択の基準の確立は、訓練中のデータドメインによって「適切な困難」が異なるため、依然として困難であることがわかった。そこで本研究では,翻訳された名前付きエンティティの最大推論エントロピーを選択尺度として採用する,教師なしデータ選択手法である'capuring perplexing named entities'を提案する。その動機は、ドメイン固有のデータの名前付きエンティティはデータの最も複雑な部分と見なされ、高い信頼性で予測されるべきである。本手法は,「韓国英語専門ドメイン並列コーパス」で検証された場合,既存の手法とは対照的に,教師なしデータ選択のための堅牢なガイダンスとして機能する。

関連論文リスト

SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [84.82139313614255]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。 SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。 Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文参考訳（メタデータ） (2025-02-24T18:20:42Z)
PATH: A Discrete-sequence Dataset for Evaluating Online Unsupervised Anomaly Detection Approaches for Multivariate Time Series [0.01874930567916036]
多変量時系列に対する異常検出手法のベンチマークは、高品質なデータセットが不足しているため、難しい課題である。我々は、最先端のシミュレーションツールによって生成される多種多様な、広範囲で、非自明なデータセットという解決策を提案する。我々のデータセットは離散列問題を表しており、文献でこれまで提案されていた解には未適応のままである。
論文参考訳（メタデータ） (2024-11-21T09:03:12Z)
Deep Unsupervised Domain Adaptation: A Review of Recent Advances and Perspectives [16.68091981866261]
対象領域のデータの性能低下に対応するために、教師なし領域適応(UDA)を提案する。 UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。
論文参考訳（メタデータ） (2022-08-15T20:05:07Z)
Invariance Learning based on Label Hierarchy [17.53032543377636]
Deep Neural Networksは、トレーニングデータに埋め込まれた急激な相関関係を継承する。 Invariance Learning (IL) はこの欠点を克服するために最近開発されている。本稿では,複数の領域におけるデータトレーニングの要件を克服する新しいILフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T13:31:21Z)
Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文参考訳（メタデータ） (2021-11-30T18:42:42Z)
Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文参考訳（メタデータ） (2021-09-19T18:50:45Z)
Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文参考訳（メタデータ） (2021-02-23T10:51:45Z)
Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency with Weak Annotator [2.8672054847109134]
一部のターゲット問題ドメインでは、学習プロセスを妨げる可能性のあるデータサンプルがあまりありません。類似のソースドメインからのラベルなしデータを活用した弱い適応学習(wal)手法を提案する。本実験は,対象領域に限定されたラベル付きデータを含む正確な分類器を学習する手法の有効性を示す。
論文参考訳（メタデータ） (2021-02-15T06:19:25Z)
A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文参考訳（メタデータ） (2020-09-01T00:06:50Z)
Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文参考訳（メタデータ） (2020-08-13T08:04:27Z)
Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。このようなモデルに基づくドメインデータ選択手法を提案する。我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文参考訳（メタデータ） (2020-04-05T06:22:16Z)
Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文参考訳（メタデータ） (2020-01-01T16:52:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。