論文の概要: Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
- arxiv url: http://arxiv.org/abs/2601.14994v1
- Date: Wed, 21 Jan 2026 13:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.380836
- Title: Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
- Title(参考訳): 翻訳によるデータの汚染:アラビアのコーパスからの証拠
- Authors: Chaymaa Abbas, Nour Shamaa, Mariette Awad,
- Abstract要約: 複数のオープンウェイト大言語モデルを微調整することにより,多言語環境における汚染動態を解明する。
アラビア語への翻訳は従来の汚染指標を抑制するが、それでも汚染されたデータへの曝露の恩恵はモデルは大きい。
我々は,複数の翻訳されたベンチマークの変種間での信号の比較により,汚染を識別する翻訳認識汚染検出法を提案する。
- 参考スコア(独自算出の注目度): 0.3288086999241324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination undermines the validity of Large Language Model evaluation by enabling models to rely on memorized benchmark content rather than true generalization. While prior work has proposed contamination detection methods, these approaches are largely limited to English benchmarks, leaving multilingual contamination poorly understood. In this work, we investigate contamination dynamics in multilingual settings by fine-tuning several open-weight LLMs on varying proportions of Arabic datasets and evaluating them on original English benchmarks. To detect memorization, we extend the Tested Slot Guessing method with a choice-reordering strategy and incorporate Min-K% probability analysis, capturing both behavioral and distributional contamination signals. Our results show that translation into Arabic suppresses conventional contamination indicators, yet models still benefit from exposure to contaminated data, particularly those with stronger Arabic capabilities. This effect is consistently reflected in rising Mink% scores and increased cross-lingual answer consistency as contamination levels grow. To address this blind spot, we propose Translation-Aware Contamination Detection, which identifies contamination by comparing signals across multiple translated benchmark variants rather than English alone. The Translation-Aware Contamination Detection reliably exposes contamination even when English-only methods fail. Together, our findings highlight the need for multilingual, translation-aware evaluation pipelines to ensure fair, transparent, and reproducible assessment of LLMs.
- Abstract(参考訳): データ汚染は、モデルが真の一般化ではなく記憶されたベンチマークコンテンツに頼ることによって、大規模言語モデルの評価の有効性を損なう。
以前の研究では汚染検出法が提案されていたが、これらの手法は英語のベンチマークに限られており、多言語汚染は理解されていない。
本研究では,アラビアデータセットの様々な割合で複数のオープンウェイトLLMを微調整し,元の英語ベンチマークで評価することにより,多言語環境における汚染動態を解明する。
メモリ化を検知するために,テストスロット誘導法を選択順序付け戦略で拡張し,Min-K%の確率解析を取り入れ,挙動および分布汚染信号の両方をキャプチャする。
以上の結果から,アラビア語への翻訳は従来の汚染指標を抑えるが,特にアラビア語能力の強い国では,汚染データへの曝露によってモデルが恩恵を受けることが示唆された。
この効果は、汚染レベルが増加するにつれてミンク%のスコアが上昇し、言語間回答の一貫性が高まることに一貫して反映される。
この盲点に対処するために、英語のみでなく、複数の翻訳されたベンチマークの変種間での信号の比較により汚染を識別する翻訳認識汚染検出法を提案する。
翻訳認識汚染検出は、英語のみのメソッドが失敗しても確実に汚染を露呈する。
この結果から,LLMの公平かつ透明で再現可能な評価を実現するために,多言語・翻訳対応評価パイプラインの必要性が示唆された。
関連論文リスト
- Translate, then Detect: Leveraging Machine Translation for Cross-Lingual Toxicity Classification [35.35733615199578]
翻訳ベースと言語特化/多言語分類パイプラインを比較した。
対象言語のリソースレベルと機械翻訳システムの品質に強く相関している。
論文 参考訳(メタデータ) (2025-09-17T23:58:07Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。