Fugu-MT 論文翻訳(概要): Data Contamination Can Cross Language Barriers

論文の概要: Data Contamination Can Cross Language Barriers

arxiv url: http://arxiv.org/abs/2406.13236v1
Date: Wed, 19 Jun 2024 05:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 22:59:30.657833
Title: Data Contamination Can Cross Language Barriers
Title（参考訳）: データ汚染は言語間バリアになり得る
Authors: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang,
Abstract要約: 大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
参考スコア（独自算出の注目度）: 29.103517721155487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be \emph{not even wrong}, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from \url{https://github.com/ShangDataLab/Deep-Contam}.
Abstract（参考訳）: 大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。既存の汚染検出法は通常、トレーニングと評価データ間のテキスト重なり合いに基づいており、より深い汚染形態を反映するには表面的すぎる可能性がある。本稿では,まず,LLMsを変換したベンチマークテストセットに対して,LLMsを過度に適合させて意図的に注入しながら,LLMsの性能を増大させる,言語横断的な汚染方式を提案する。そこで我々は,このような汚染を深く隠蔽する一般化に基づく手法を提案する。具体的には、元のベンチマークを変更した後のLCMの性能変化について、偽解の選択を他の質問の正解に置き換えることによって検討する。汚染されたモデルは、すべての選択が記憶において正しいので、偽の選択が 'emph{not even wrong' であるようなより簡単な状況にほとんど一般化できない。実験結果から,既存の検出手法を騙すことは容易であるが,本研究の成果は得られなかった。さらに,LLMの動作機構の解釈や,多言語機能向上のための後学習における言語間汚染の可能性についても検討した。使用するコードとデータセットは \url{https://github.com/ShangDataLab/Deep-Contam} から取得できます。

関連論文リスト

Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora [0.3288086999241324]
複数のオープンウェイト大言語モデルを微調整することにより,多言語環境における汚染動態を解明する。アラビア語への翻訳は従来の汚染指標を抑制するが、それでも汚染されたデータへの曝露の恩恵はモデルは大きい。我々は,複数の翻訳されたベンチマークの変種間での信号の比較により,汚染を識別する翻訳認識汚染検出法を提案する。
論文参考訳（メタデータ） (2026-01-21T13:53:04Z)
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。既存の検出手法が不整合性を示すか,不整合性を示すかを示す。マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文参考訳（メタデータ） (2025-11-05T18:59:52Z)
Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition [16.1813157127555]
本研究は,LLMプレトレーニングコーパスにLibriSpeechとCommon Voiceの評価セットのかなりの量が現れることを明らかにする。汚染影響を測定するために、汚染を伴わずに訓練されたLLMを比較した。その結果,LSMの出力は少量のデータ汚染によってバイアスを受けることができることがわかった。
論文参考訳（メタデータ） (2025-05-28T11:39:59Z)
Towards Contamination Resistant Benchmarks [0.6906005491572401]
大規模言語モデル(LLM)を適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。汚染は評価の信頼性を損なう重要な問題です本稿では, カエサル暗号に基づくベンチマーク(例えば, シフトが 1 のとき "ab" から "bc" など)を提案する。
論文参考訳（メタデータ） (2025-05-13T09:35:40Z)
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文参考訳（メタデータ） (2025-03-06T12:14:45Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。コードとデータセットを公開しています。
論文参考訳（メタデータ） (2024-10-21T14:47:37Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文参考訳（メタデータ） (2024-08-26T15:29:34Z)
Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか? この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文参考訳（メタデータ） (2024-07-12T04:50:17Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文参考訳（メタデータ） (2024-06-05T11:35:44Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models [12.367149496971408]
clean-Evalは、データ汚染の問題を緩和し、よりクリーンな方法でモデルを評価する。 clean-Eval は LLM を使用して、汚染されたデータを候補セットに逆変換する。次にセマンティック検出器を使用して、生成された低品質サンプルをフィルタリングする。ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。
論文参考訳（メタデータ） (2023-11-15T17:50:30Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。