Fugu-MT 論文翻訳(概要): How Much are LLMs Contaminated? A Comprehensive Survey and the LLMSanitize Library

論文の概要: How Much are LLMs Contaminated? A Comprehensive Survey and the LLMSanitize Library

arxiv url: http://arxiv.org/abs/2404.00699v1
Date: Sun, 31 Mar 2024 14:32:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:11:04.527223
Title: How Much are LLMs Contaminated? A Comprehensive Survey and the LLMSanitize Library
Title（参考訳）: LLMはどの程度汚染されているか? : 総合調査とLCM衛生図書館
Authors: Mathieu Ravaut, Bosheng Ding, Fangkai Jiao, Hailin Chen, Xingxuan Li, Ruochen Zhao, Chengwei Qin, Caiming Xiong, Shafiq Joty,
Abstract要約: 近年のLarge Language Models(LLM)の台頭に伴い、新たな機会が生まれつつありますが、新たな課題や汚染が急速に深刻化しています。ビジネスアプリケーションとAIの資金調達は、人気の高い質問回答ベンチマークで得られた数パーセントのポイントが数十万ドルに変換される規模に達している。 GPT-4やClaude-3のようなクローズドソースモデルでは、トレーニングセットに関する情報を漏らすことは不可能ではない。
参考スコア（独自算出の注目度）: 68.10605098856087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of Large Language Models (LLMs) in recent years, new opportunities are emerging, but also new challenges, and contamination is quickly becoming critical. Business applications and fundraising in AI have reached a scale at which a few percentage points gained on popular question-answering benchmarks could translate into dozens of millions of dollars, placing high pressure on model integrity. At the same time, it is becoming harder and harder to keep track of the data that LLMs have seen; if not impossible with closed-source models like GPT-4 and Claude-3 not divulging any information on the training set. As a result, contamination becomes a critical issue: LLMs' performance may not be reliable anymore, as the high performance may be at least partly due to their previous exposure to the data. This limitation jeopardizes the entire progress in the field of NLP, yet, there remains a lack of methods on how to efficiently address contamination, or a clear consensus on prevention, mitigation and classification of contamination. In this paper, we survey all recent work on contamination with LLMs, and help the community track contamination levels of LLMs by releasing an open-source Python library named LLMSanitize implementing major contamination detection algorithms, which link is: https://github.com/ntunlp/LLMSanitize.
Abstract（参考訳）: 近年のLarge Language Models(LLM)の台頭に伴い、新たな機会が生まれつつありますが、新たな課題や汚染が急速に深刻化しています。ビジネスアプリケーションとAIの資金調達は、人気の高い質問回答ベンチマークで得られた数パーセントのポイントが数十万ドルに変換され、モデルの整合性に高い圧力がかかる規模に達している。 GPT-4やClaude-3のようなクローズドソースモデルでは、トレーニングセットに関する情報を漏らすことは不可能ではないが。その結果、汚染は重要な問題となる: LLMの性能は、少なくとも部分的には、データへの以前の露出のために、もはや信頼性が低いかもしれない。この制限は、NLPの分野全体の進歩を危険にさらすが、汚染を効果的に対処する方法や、汚染の予防、緩和、分類について明確なコンセンサスを欠いている。本稿では, LLMによる汚染に関する最近の研究をすべて調査し, LLMSanitizeというオープンソースのPythonライブラリを, https://github.com/ntunlp/LLMSanitizeに実装することで, LLMの汚染レベル追跡を支援する。

関連論文リスト

Rethinking the effects of data contamination in Code Intelligence [15.99780798470139]
本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
論文参考訳（メタデータ） (2025-06-03T12:15:44Z)
RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models [0.8739101659113157]
Residual-Noise Fingerprinting (RN-F)は、大規模言語モデル(LLM)における汚染データを検出するための新しいフレームワークである。 RN-Fは、追加の浮動小数点演算を導入することなく残留信号パターンを活用する、単一パスで勾配のない検出方法である。 RN-Fは、既存の最先端手法を一貫して上回り、汚染検出指標の最大10.5%のパフォーマンス向上を実現していることを示す。
論文参考訳（メタデータ） (2025-05-19T15:32:49Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination [18.586654412992168]
MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。 MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文参考訳（メタデータ） (2024-09-16T02:04:33Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文参考訳（メタデータ） (2024-02-19T14:00:39Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文参考訳（メタデータ） (2023-12-26T21:17:46Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文参考訳（メタデータ） (2023-05-15T15:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。