論文の概要: Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation
- arxiv url: http://arxiv.org/abs/2406.14644v1
- Date: Thu, 20 Jun 2024 18:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:23:10.654423
- Title: Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation
- Title(参考訳): 言語モデルにおけるデータ汚染スペクトルの展開:検出から修復まで
- Authors: Chunyuan Deng, Yilun Zhao, Yuzhao Heng, Yitong Li, Jiannan Cao, Xiangru Tang, Arman Cohan,
- Abstract要約: トレーニングコーパスの問題は、評価ベンチマークと重なり、汚染と評価され、最近の重要な研究の焦点となっている。
この研究の目的は、汚染を特定し、その影響を理解し、緩和戦略を探求することである。
この調査は、データ汚染研究の最新の進歩の簡潔な概要となる。
- 参考スコア(独自算出の注目度): 28.997127566200753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data contamination has garnered increased attention in the era of large language models (LLMs) due to the reliance on extensive internet-derived training corpora. The issue of training corpus overlap with evaluation benchmarks--referred to as contamination--has been the focus of significant recent research. This body of work aims to identify contamination, understand its impacts, and explore mitigation strategies from diverse perspectives. However, comprehensive studies that provide a clear pathway from foundational concepts to advanced insights are lacking in this nascent field. Therefore, we present a comprehensive survey in the field of data contamination, laying out the key issues, methodologies, and findings to date, and highlighting areas in need of further research and development. In particular, we begin by examining the effects of data contamination across various stages and forms. We then provide a detailed analysis of current contamination detection methods, categorizing them to highlight their focus, assumptions, strengths, and limitations. We also discuss mitigation strategies, offering a clear guide for future research. This survey serves as a succinct overview of the most recent advancements in data contamination research, providing a straightforward guide for the benefit of future research endeavors.
- Abstract(参考訳): データ汚染は、大規模な言語モデル(LLM)の時代において、広範なインターネット由来のトレーニングコーパスに依存しているため、注目を集めている。
トレーニングコーパスの問題は、評価ベンチマークと重なり、汚染と評価され、近年の重大な研究の焦点となっている。
この研究の目的は、汚染を特定し、その影響を理解し、様々な観点から緩和戦略を探求することである。
しかし、基礎概念から先進的な洞察への明確な経路を提供する包括的な研究は、この初期の分野では欠落している。
そこで本研究では,データ汚染分野の包括的調査を行い,重要な課題,方法論,知見を概説するとともに,さらなる研究・開発の必要性を浮き彫りにしている。
特に,各段階および形態におけるデータ汚染の影響について検討することから始める。
次に、現在の汚染検知方法の詳細な分析を行い、それらの焦点、仮定、強度、限界を分類する。
また、今後の研究の明確な指針として緩和戦略についても論じる。
この調査は、データ汚染研究の最新の進歩の簡潔な概要として役立ち、将来の研究成果の直接的なガイドを提供する。
関連論文リスト
- Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - Cross-Target Stance Detection: A Survey of Techniques, Datasets, and Challenges [7.242609314791262]
クロスターゲットスタンス検出(クロスターゲットスタンス検出)は、テキストで表現された視点を所定のターゲットに向けて決定するタスクである。
オンラインの視点や意見の分析やマイニングの必要性が高まる中、このタスクは近年大きな関心を集めている。
本総説では,過去10年間の目標間姿勢検出の進歩について検討する。
論文 参考訳(メタデータ) (2024-09-20T15:49:14Z) - Video Anomaly Detection in 10 Years: A Survey and Outlook [10.143205531474907]
ビデオ異常検出(VAD)は、監視、医療、環境監視といった様々な領域において非常に重要である。
この調査では、従来の教師付きトレーニングパラダイムを超えて、弱教師付き、自己監督型、教師なしのアプローチを包含する、ディープラーニングベースのVADを調査している。
論文 参考訳(メタデータ) (2024-05-29T17:56:31Z) - Few-Shot Object Detection: Research Advances and Challenges [15.916463121997843]
Few-shot Object Detection (FSOD)は、少数の学習技術とオブジェクト検出技術を組み合わせて、注釈付きサンプルに制限のある新しいオブジェクトに迅速に適応する。
本稿では,近年のFSOD分野の進歩を概観する包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-07T03:37:29Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual Learning [58.107474025048866]
蓄積とは、以前に獲得した知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - A Comparative Review of Recent Few-Shot Object Detection Algorithms [0.0]
ラベル付きデータで新しいクラスに適応するために学習するオブジェクトの少ない検出は、命令的で長期にわたる問題である。
近年の研究では、ターゲットドメインを監督せずに追加データセットに暗黙の手がかりを使って、少数のショット検出器が堅牢なタスク概念を洗練させる方法が研究されている。
論文 参考訳(メタデータ) (2021-10-30T07:57:11Z) - A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution
Detection: Solutions and Future Challenges [28.104112546546936]
機械学習モデルは、トレーニング分布から分岐したサンプルに遭遇することが多い。
類似した共有概念にもかかわらず、アウト・オブ・ディストリビューション、オープン・セット、異常検出は独立して研究されている。
本調査は,各分野における多数の卓越した作品について,クロスドメインかつ包括的レビューを行うことを目的としている。
論文 参考訳(メタデータ) (2021-10-26T22:05:31Z) - Anomalous Example Detection in Deep Learning: A Survey [98.2295889723002]
本調査は,ディープラーニングアプリケーションにおける異常検出の研究について,構造化された包括的概要を提供する。
既存の技術に対する分類法を,その基礎となる前提と採用アプローチに基づいて提案する。
本稿では,DLシステムに異常検出技術を適用しながら未解決の研究課題を取り上げ,今後の課題について述べる。
論文 参考訳(メタデータ) (2020-03-16T02:47:23Z) - Survey of Network Intrusion Detection Methods from the Perspective of
the Knowledge Discovery in Databases Process [63.75363908696257]
本稿では,侵入検知器の開発を目的として,ネットワークデータに適用された手法について概説する。
本稿では,データのキャプチャ,準備,変換,データマイニング,評価などの手法について論じる。
この文献レビューの結果、ネットワークセキュリティ分野のさらなる研究のために考慮すべきいくつかのオープンな問題について検討する。
論文 参考訳(メタデータ) (2020-01-27T11:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。