論文の概要: RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13249v1
- Date: Mon, 19 May 2025 15:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.699309
- Title: RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models
- Title(参考訳): RN-F:大規模言語モデルにおける汚染データを緩和するための新しいアプローチ
- Authors: Le Vu Anh, Dinh Duc Nha Nguyen, Phi Long Nguyen,
- Abstract要約: Residual-Noise Fingerprinting (RN-F)は、大規模言語モデル(LLM)における汚染データを検出するための新しいフレームワークである。
RN-Fは、追加の浮動小数点演算を導入することなく残留信号パターンを活用する、単一パスで勾配のない検出方法である。
RN-Fは、既存の最先端手法を一貫して上回り、汚染検出指標の最大10.5%のパフォーマンス向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 0.8739101659113157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become foundational in modern artificial intelligence, powering a wide range of applications from code generation and virtual assistants to scientific research and enterprise automation. However, concerns about data contamination--where test data overlaps with training data--have raised serious questions about the reliability of these applications. Despite awareness of this issue, existing methods fall short in effectively identifying or mitigating contamination. In this paper, we propose Residual-Noise Fingerprinting (RN-F), a novel framework for detecting contaminated data in LLMs. RN-F is a single-pass, gradient-free detection method that leverages residual signal patterns without introducing additional floating-point operations. Our approach is lightweight, model-agnostic, and efficient. We evaluate RN-F on multiple LLMs across various contaminated datasets and show that it consistently outperforms existing state-of-the-art methods, achieving performance improvements of up to 10.5% in contamination detection metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代の人工知能の基礎となり、コード生成や仮想アシスタントから科学研究や企業自動化まで幅広い応用を支えている。
しかし、データ汚染に関する懸念 – テストデータがトレーニングデータと重複している – は、これらのアプリケーションの信頼性に関する深刻な疑問を提起している。
この問題は認識されているものの、既存の方法では汚染を効果的に特定または緩和するには不十分である。
本稿では,LLMにおける汚染データを検出する新しいフレームワークであるResidual-Noise Fingerprinting (RN-F)を提案する。
RN-Fは、追加の浮動小数点演算を導入することなく残留信号パターンを活用する、単一パスで勾配のない検出方法である。
私たちのアプローチは軽量で、モデルに依存しず、効率的です。
各種汚染データセットにおける複数のLLM上でのRN-Fの評価を行い、既存の最先端手法を一貫して上回り、汚染検出指標の最大10.5%の性能向上を実現していることを示す。
関連論文リスト
- A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。
データ汚染による性能評価の信頼性は精査されている。
論文 参考訳(メタデータ) (2025-02-20T10:23:27Z) - Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T02:04:33Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Federated Learning with Anomaly Detection via Gradient and Reconstruction Analysis [2.28438857884398]
自動エンコーダ駆動のデータ再構成と勾配解析を相乗化して、前例のない精度で有毒データを検出・緩和する新しいフレームワークを提案する。
本手法は, 最小偽陽性率を維持しつつ, 異常検出精度を15%向上させる。
私たちの仕事は、分散学習のセキュリティにおける将来の進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-03-15T03:54:45Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors [3.088223994180069]
ウェアラブル医療センサ(WMS)に基づく多相検出連続学習フレームワークであるDOCTORを提案する。
マルチヘッドディープニューラルネットワーク(DNN)とリプレイスタイルのCLアルゴリズムを採用している。
平均テスト精度は1.43倍、F1スコアは1.25倍、後方転送は0.41倍である。
論文 参考訳(メタデータ) (2023-05-09T19:33:17Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。