論文の概要: When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2601.20858v1
- Date: Wed, 28 Jan 2026 18:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.109468
- Title: When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation
- Title(参考訳): Flores Bloomz氏の誤り: 機械翻訳評価における双方向汚染
- Authors: David Tan, Pinzhen Chen, Josef van Genabith, Koel Dutta Chowdhury,
- Abstract要約: 大規模言語モデル(LLM)はベンチマークで汚染され、その結果、一般化として記憶を隠蔽するスコアが膨らむ。
本研究は,機械翻訳汚染が対向的であり,標的側摂動による未知の翻訳方向の性能を人工的に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 12.89127380889145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be benchmark-contaminated, resulting in inflated scores that mask memorization as generalization, and in multilingual settings, this memorization can even transfer to "uncontaminated" languages. Using the FLORES-200 translation benchmark as a diagnostic, we study two 7-8B instruction-tuned multilingual LLMs: Bloomz, which was trained on FLORES, and Llama as an uncontaminated control. We confirm Bloomz's FLORES contamination and demonstrate that machine translation contamination can be cross-directional, artificially boosting performance in unseen translation directions due to target-side memorization. Further analysis shows that recall of memorized references often persists despite various source-side perturbation efforts like paraphrasing and named entity replacement. However, replacing named entities leads to a consistent decrease in BLEU, suggesting an effective probing method for memorization in contaminated models.
- Abstract(参考訳): 大規模言語モデル(LLM)はベンチマークで汚染され、その結果、一般化として記憶を隠蔽するスコアが膨らみ、多言語設定では、この記憶は「汚染されていない」言語に転送される。
FLORES-200翻訳ベンチマークを診断として,FLORESで訓練した7-8B命令付き多言語LLMであるBloomzとLlamaを非汚染制御として検討した。
我々は,BloomzのFLORES汚染を確認し,機械翻訳の汚染が対向的であり,標的側記憶による未知の翻訳方向の性能を人工的に向上させることを実証した。
さらに分析したところ、パラフレージングや名前付きエンティティ置換といった様々なソース側の摂動にもかかわらず、記憶された参照のリコールが持続することが示された。
しかし、名前のついたエンティティを置き換えるとBLEUは一貫して減少し、汚染されたモデルの記憶のための効果的な探索法が提案される。
関連論文リスト
- Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora [0.3288086999241324]
複数のオープンウェイト大言語モデルを微調整することにより,多言語環境における汚染動態を解明する。
アラビア語への翻訳は従来の汚染指標を抑制するが、それでも汚染されたデータへの曝露の恩恵はモデルは大きい。
我々は,複数の翻訳されたベンチマークの変種間での信号の比較により,汚染を識別する翻訳認識汚染検出法を提案する。
論文 参考訳(メタデータ) (2026-01-21T13:53:04Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Detecting and Mitigating Hallucinations in Multilingual Summarisation [40.5267502712576]
幻覚は抽象的な要約のためのニューラルネットワークの信頼性に重大な課題をもたらす。
我々は、非英語要約の忠実度を評価する新しい計量mFACTを開発した。
そこで我々は,言語間移動による幻覚を減らすための,シンプルだが効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:59:25Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Crosslingual Embeddings are Essential in UNMT for Distant Languages: An
English to IndoAryan Case Study [28.409618457653135]
言語間埋め込みによるUNMTモデルの埋め込み層の初期化は,既存の手法よりもBLEUスコアが大幅に向上したことを示す。
提案手法は,MASS (Masked Sequence to Sequence) とDAE (Denoising Autoencoder) UNMT (Denoising Autoencoder) UNMT) を用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-09T11:31:27Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。