論文の概要: Multilingual Coreference Resolution via Cycle-Consistent Machine Translation
- arxiv url: http://arxiv.org/abs/2606.05444v1
- Date: Wed, 03 Jun 2026 21:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.408885
- Title: Multilingual Coreference Resolution via Cycle-Consistent Machine Translation
- Title(参考訳): サイクル一貫性機械翻訳による多言語照合
- Authors: Adriana-Valentina Costache, Eduard Poesina, Silviu-Florin Gheorghe, Paul Irofti, Radu Tudor Ionescu,
- Abstract要約: コア参照解決はコアNLPタスクであり、機械翻訳、質問応答、文書要約など、幅広いダウンストリームアプリケーションを持つ。
本稿では,機械翻訳(MT)を英語からターゲットとする低リソース言語に活用する新しいコア推論分解パイプラインを提案する。
4つの低リソース言語の実験から、私たちのパイプラインはコア参照の解決において大きなパフォーマンス向上をもたらします。
- 参考スコア(独自算出の注目度): 20.187814511700243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coreference resolution is a core NLP task, having a broad range of downstream applications, e.g.~machine translation, question answering, document summarization, etc. While the task is well-studied in English, comparatively less attention is dedicated to coreference resolution in other languages, especially low-resource ones. To mitigate this gap, we propose a novel coreference resolution pipeline that harnesses machine translation (MT) from English to a target low-resource language, to generate or expand training data. To automatically validate the quality of the translated samples, we back-translate the samples and assess the similarity with the original English samples via cosine similarity in the latent space of a BERT model. The resulting similarity scores are integrated into the loss function to weight training samples according to their MT cycle consistency. Extensive experiments on four low-resource languages show that our pipeline brings significant performance gains in coreference resolution. Moreover, our pipeline enables accurate coreference resolution in languages where no previous corpora were available.
- Abstract(参考訳): コア参照解決はコアNLPタスクであり、幅広いダウンストリームアプリケーション、例えば機械翻訳、質問応答、文書要約などを備えている。
このタスクは英語でよく研究されているが、他の言語、特に低リソース言語におけるコア参照解決にはあまり注目されていない。
このギャップを緩和するために、英語からターゲットとする低リソース言語への機械翻訳(MT)を利用して、トレーニングデータの生成や拡張を行う新しいコア参照分解パイプラインを提案する。
翻訳されたサンプルの品質を自動検証するために, BERTモデルの潜伏空間におけるコサイン類似性を用いて, サンプルを逆翻訳し, 元の英語サンプルと類似性を評価する。
得られた類似度スコアは、損失関数に統合され、MTサイクルの整合性に応じて重量訓練サンプルとなる。
4つの低リソース言語に関する大規模な実験は、私たちのパイプラインがコア参照解決において大きなパフォーマンス向上をもたらしていることを示している。
さらに、以前のコーパスが利用できなかった言語で正確なコア参照解決を可能にする。
関連論文リスト
- A Komi-Yazva--Russian Parallel Corpus and Evaluation Protocol for Zero- and Few-Shot LLM Translation [0.0]
我々は,最初のコミヤズヴァ-ロシア並列コーパスを明示的な評価プロトコルとともに提示する。
データセットには、74の物語テキストから457の一致した文対が含まれている。
我々はこの設定を用いて、Komi-Yazva-to- Russian翻訳における近代的な大規模言語モデルの比較を行う。
論文 参考訳(メタデータ) (2026-06-04T17:26:38Z) - Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。
本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。
最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文 参考訳(メタデータ) (2026-02-19T14:56:42Z) - Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。
本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。
JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:02:22Z) - The Saturation Point of Backtranslation in High Quality Low Resource English Gujarati Machine Translation [0.0]
バックトランスレーションBTは低リソース機械翻訳MTにおいてモノリンガルコーパスを用いた追加の合成訓練データを生成するために広く利用されている。
多言語事前学習MBART50モデルを用いた英語グジャラート翻訳における逆翻訳の有効性について検討する。
論文 参考訳(メタデータ) (2025-06-12T09:02:53Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。