Fugu-MT 論文翻訳(概要): Bitext Mining for Low-Resource Languages via Contrastive Learning

論文の概要: Bitext Mining for Low-Resource Languages via Contrastive Learning

arxiv url: http://arxiv.org/abs/2208.11194v1
Date: Tue, 23 Aug 2022 21:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-25 12:28:35.886953
Title: Bitext Mining for Low-Resource Languages via Contrastive Learning
Title（参考訳）: コントラスト学習による低リソース言語のためのバイテキストマイニング
Authors: Weiting Tan, Philipp Koehn
Abstract要約: 本稿では,言語モデルの文表現を複数負のランク付け損失で微調整することで,クリーンなビットの検索に役立てることを示す。実験により,我々のアプローチから抽出した並列データは,低リソース言語Khmer と Pashto における従来の最先端手法を大幅に上回っていることがわかった。
参考スコア（独自算出の注目度）: 13.320873502699373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mining high-quality bitexts for low-resource languages is challenging. This paper shows that sentence representation of language models fine-tuned with multiple negatives ranking loss, a contrastive objective, helps retrieve clean bitexts. Experiments show that parallel data mined from our approach substantially outperform the previous state-of-the-art method on low resource languages Khmer and Pashto.
Abstract（参考訳）: 低リソース言語のための高品質なbitextsのマイニングは難しい。本稿では,言語モデルの文表現を複数負のランク付け損失で微調整することで,クリーンなビットの検索に役立てることを示す。実験から得られた並列データは,これまでの低リソース言語khmerとpashtoの最先端手法を大きく上回っていることがわかった。

関連論文リスト

Diacritic Restoration for Low-Resource Indigenous Languages: Case Study with Bribri and Cook Islands Māori [2.1900575893223526]
本稿では,自然言語処理(NLP)タスクに不可欠なテキスト正規化の形式であるダイアクリティカル修復の実験を行う。本研究は,コスタ・リカで話されるチブチャン語であるブリブリ語と,クック諸島で話されるポリネシア語であるモリ語に焦点をあてる。
論文参考訳（メタデータ） (2025-12-22T18:04:24Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。 MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文参考訳（メタデータ） (2024-09-19T17:59:20Z)
A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文参考訳（メタデータ） (2024-09-04T13:49:45Z)
Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-03T05:58:53Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文参考訳（メタデータ） (2023-05-26T18:14:23Z)
The Best of Both Worlds: Combining Human and Machine Translations for Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文参考訳（メタデータ） (2023-05-22T05:57:47Z)
No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文参考訳（メタデータ） (2022-07-11T07:33:36Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Adapting High-resource NMT Models to Translate Low-resource Related Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文参考訳（メタデータ） (2021-05-31T16:01:18Z)
How Low is Too Low? A Computational Perspective on Extremely Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文参考訳（メタデータ） (2021-05-30T12:09:59Z)
Combining Pretrained High-Resource Embeddings and Subword Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文参考訳（メタデータ） (2020-03-09T21:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。