Fugu-MT 論文翻訳(概要): Data Contamination Calibration for Black-box LLMs

論文の概要: Data Contamination Calibration for Black-box LLMs

arxiv url: http://arxiv.org/abs/2405.11930v2
Date: Mon, 3 Jun 2024 05:21:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 14:29:15.585728
Title: Data Contamination Calibration for Black-box LLMs
Title（参考訳）: ブラックボックスLCMのデータ汚染校正
Authors: Wentao Ye, Jiaqi Hu, Liyao Li, Haobo Wang, Gang Chen, Junbo Zhao,
Abstract要約: 本稿では, 汚染データを検出するために, ポーラライズ・オーグメント (PAC) という総合的手法と, 新たにリリースされたデータセットを提案する。広範な実験により、PACはデータ汚染検出に向けて、既存の手法を少なくとも4.5%上回っている。実世界のシナリオにおける我々の応用は、汚染と関連する問題の顕著な存在を強調している。
参考スコア（独自算出の注目度）: 17.663721989595434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancements of Large Language Models (LLMs) tightly associate with the expansion of the training data size. However, the unchecked ultra-large-scale training sets introduce a series of potential risks like data contamination, i.e. the benchmark data is used for training. In this work, we propose a holistic method named Polarized Augment Calibration (PAC) along with a new to-be-released dataset to detect the contaminated data and diminish the contamination effect. PAC extends the popular MIA (Membership Inference Attack) -- from machine learning community -- by forming a more global target at detecting training data to Clarify invisible training data. As a pioneering work, PAC is very much plug-and-play that can be integrated with most (if not all) current white- and black-box LLMs. By extensive experiments, PAC outperforms existing methods by at least 4.5%, towards data contamination detection on more 4 dataset formats, with more than 10 base LLMs. Besides, our application in real-world scenarios highlights the prominent presence of contamination and related issues.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は、トレーニングデータサイズの拡大と密接に関連している。しかし、未確認の超大規模トレーニングセットは、データ汚染のような潜在的なリスク、すなわち、ベンチマークデータがトレーニングに使用される一連のリスクをもたらす。本研究では, ポーラライズ・オーグメント・キャリブレーション(PAC, Polarized Augment Calibration) と題して, 汚染データを検出し, 汚染効果を低減させる新たなデータセットを提案する。 PACは、マシンラーニングコミュニティから人気のMIA(Membership Inference Attack)を拡張し、トレーニングデータの検出においてよりグローバルなターゲットを形成して、目に見えないトレーニングデータを明確にする。先駆的な業績として、PACは非常に多くのプラグアンドプレイがあり、現在のほとんどの(すべてではないとしても)ホワイトボックスとブラックボックスのLCMと統合できる。大規模な実験により、PACは既存の手法を少なくとも4.5%上回り、4つのデータセットフォーマットでデータ汚染を検出する。さらに、実世界のシナリオにおける我々の応用は、汚染と関連する問題の顕著な存在を強調している。

関連論文リスト

LLM4MEA: Data-free Model Extraction Attacks on Sequential Recommenders via Large Language Models [50.794651919028965]
近年の研究では、モデル抽出攻撃(MEA)に対するシーケンシャルレコメンデータシステムの脆弱性が実証されている。事前のMEAにおけるブラックボックス攻撃は、データ選択のランダムサンプリングによるレコメンデータシステムの脆弱性を明らかにするのに効果がない。 LLM4MEAは,Large Language Models (LLMs) を人間のようなランク付けとして活用してデータを生成する新しいモデル抽出法である。
論文参考訳（メタデータ） (2025-07-22T19:20:23Z)
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。 BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文参考訳（メタデータ） (2025-02-24T02:57:21Z)
Beware of Calibration Data for Pruning Large Language Models [41.1689082093302]
トレーニング後のプルーニングは、リソース集約的な反復的なトレーニングを必要としない有望な方法である。キャリブレーションデータは、特に高頻度で訓練後の刈り取りにも重要である。キャリブレーションデータ構築のための自己生成型キャリブレーションデータ合成戦略を提案する。
論文参考訳（メタデータ） (2024-10-23T09:36:21Z)
CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。 CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文参考訳（メタデータ） (2024-10-19T06:33:33Z)
Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文参考訳（メタデータ） (2024-10-09T22:00:19Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)
Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文参考訳（メタデータ） (2022-07-14T10:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。