論文の概要: Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
- arxiv url: http://arxiv.org/abs/2601.14994v1
- Date: Wed, 21 Jan 2026 13:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.380836
- Title: Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
- Title(参考訳): 翻訳によるデータの汚染:アラビアのコーパスからの証拠
- Authors: Chaymaa Abbas, Nour Shamaa, Mariette Awad,
- Abstract要約: 複数のオープンウェイト大言語モデルを微調整することにより,多言語環境における汚染動態を解明する。
アラビア語への翻訳は従来の汚染指標を抑制するが、それでも汚染されたデータへの曝露の恩恵はモデルは大きい。
我々は,複数の翻訳されたベンチマークの変種間での信号の比較により,汚染を識別する翻訳認識汚染検出法を提案する。
- 参考スコア(独自算出の注目度): 0.3288086999241324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination undermines the validity of Large Language Model evaluation by enabling models to rely on memorized benchmark content rather than true generalization. While prior work has proposed contamination detection methods, these approaches are largely limited to English benchmarks, leaving multilingual contamination poorly understood. In this work, we investigate contamination dynamics in multilingual settings by fine-tuning several open-weight LLMs on varying proportions of Arabic datasets and evaluating them on original English benchmarks. To detect memorization, we extend the Tested Slot Guessing method with a choice-reordering strategy and incorporate Min-K% probability analysis, capturing both behavioral and distributional contamination signals. Our results show that translation into Arabic suppresses conventional contamination indicators, yet models still benefit from exposure to contaminated data, particularly those with stronger Arabic capabilities. This effect is consistently reflected in rising Mink% scores and increased cross-lingual answer consistency as contamination levels grow. To address this blind spot, we propose Translation-Aware Contamination Detection, which identifies contamination by comparing signals across multiple translated benchmark variants rather than English alone. The Translation-Aware Contamination Detection reliably exposes contamination even when English-only methods fail. Together, our findings highlight the need for multilingual, translation-aware evaluation pipelines to ensure fair, transparent, and reproducible assessment of LLMs.
- Abstract(参考訳): データ汚染は、モデルが真の一般化ではなく記憶されたベンチマークコンテンツに頼ることによって、大規模言語モデルの評価の有効性を損なう。
以前の研究では汚染検出法が提案されていたが、これらの手法は英語のベンチマークに限られており、多言語汚染は理解されていない。
本研究では,アラビアデータセットの様々な割合で複数のオープンウェイトLLMを微調整し,元の英語ベンチマークで評価することにより,多言語環境における汚染動態を解明する。
メモリ化を検知するために,テストスロット誘導法を選択順序付け戦略で拡張し,Min-K%の確率解析を取り入れ,挙動および分布汚染信号の両方をキャプチャする。
以上の結果から,アラビア語への翻訳は従来の汚染指標を抑えるが,特にアラビア語能力の強い国では,汚染データへの曝露によってモデルが恩恵を受けることが示唆された。
この効果は、汚染レベルが増加するにつれてミンク%のスコアが上昇し、言語間回答の一貫性が高まることに一貫して反映される。
この盲点に対処するために、英語のみでなく、複数の翻訳されたベンチマークの変種間での信号の比較により汚染を識別する翻訳認識汚染検出法を提案する。
翻訳認識汚染検出は、英語のみのメソッドが失敗しても確実に汚染を露呈する。
この結果から,LLMの公平かつ透明で再現可能な評価を実現するために,多言語・翻訳対応評価パイプラインの必要性が示唆された。
関連論文リスト
- When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation [12.89127380889145]
大規模言語モデル(LLM)はベンチマークで汚染され、その結果、一般化として記憶を隠蔽するスコアが膨らむ。
本研究は,機械翻訳汚染が対向的であり,標的側摂動による未知の翻訳方向の性能を人工的に向上させることができることを示す。
論文 参考訳(メタデータ) (2026-01-28T18:56:21Z) - Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Translate, then Detect: Leveraging Machine Translation for Cross-Lingual Toxicity Classification [35.35733615199578]
翻訳ベースと言語特化/多言語分類パイプラインを比較した。
対象言語のリソースレベルと機械翻訳システムの品質に強く相関している。
論文 参考訳(メタデータ) (2025-09-17T23:58:07Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。