論文の概要: Bitext Mining for Low-Resource Languages via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2208.11194v1
- Date: Tue, 23 Aug 2022 21:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:28:35.886953
- Title: Bitext Mining for Low-Resource Languages via Contrastive Learning
- Title(参考訳): コントラスト学習による低リソース言語のためのバイテキストマイニング
- Authors: Weiting Tan, Philipp Koehn
- Abstract要約: 本稿では,言語モデルの文表現を複数負のランク付け損失で微調整することで,クリーンなビットの検索に役立てることを示す。
実験により,我々のアプローチから抽出した並列データは,低リソース言語Khmer と Pashto における従来の最先端手法を大幅に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 13.320873502699373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mining high-quality bitexts for low-resource languages is challenging. This
paper shows that sentence representation of language models fine-tuned with
multiple negatives ranking loss, a contrastive objective, helps retrieve clean
bitexts. Experiments show that parallel data mined from our approach
substantially outperform the previous state-of-the-art method on low resource
languages Khmer and Pashto.
- Abstract(参考訳): 低リソース言語のための高品質なbitextsのマイニングは難しい。
本稿では,言語モデルの文表現を複数負のランク付け損失で微調整することで,クリーンなビットの検索に役立てることを示す。
実験から得られた並列データは,これまでの低リソース言語khmerとpashtoの最先端手法を大きく上回っていることがわかった。
関連論文リスト
- MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。
そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。