論文の概要: Data Contamination Report from the 2024 CONDA Shared Task
- arxiv url: http://arxiv.org/abs/2407.21530v1
- Date: Wed, 31 Jul 2024 11:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:02:39.944695
- Title: Data Contamination Report from the 2024 CONDA Shared Task
- Title(参考訳): 2024年ConDA共有タスクのデータ汚染報告
- Authors: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang,
- Abstract要約: この最初のコンピレーション・ペーパーは、合計23人のコントリビュータから91件以上の汚染された資料が報告された566件を基にしている。
共有タスクと関連するデータベースの目標は,問題の範囲の理解と,既知の汚染資源に対する報告評価結果の回避を支援することにある。
- 参考スコア(独自算出の注目度): 78.50743680642405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community.
- Abstract(参考訳): 第1回データ汚染ワークショップ(CONDA 2024)は、自然言語処理におけるデータ汚染に関するすべての側面に焦点を当てており、データ汚染は、大規模モデルのトレーニングに使用される事前学習コーパスに評価データが含まれている状況として理解され、評価結果が妥協される。
ワークショップでは、現在の利用可能なデータセットとモデルのデータの汚染に関する証拠を収集する共有タスクを育成した。
共有タスクと関連するデータベースの目標は,問題の範囲の理解と,既知の汚染資源に対する報告評価結果の回避を支援することにある。
共有タスクは、GitHubプールリクエストを通じてコミュニティからコントリビューションを受けることができる、汚染証拠の収集のための構造化された、集中型のパブリックデータベースを提供する。
この最初のコンピレーション・ペーパーは、合計23人のコントリビュータから91件以上の汚染された資料が報告された566件を基にしている。
個々の汚染イベントの詳細はプラットフォームで確認できる。
プラットフォームは引き続きオンラインであり、コミュニティからのコントリビューションも受け付けている。
関連論文リスト
- Mutual Information Multinomial Estimation [53.58005108981247]
相互情報(MI)の推定は、データサイエンスと機械学習の基本的な課題である。
我々の主な発見は、データ分布の予備的な推定が、劇的に予測に役立ちます。
非ガウス的合成問題を含む多種多様な課題に対する実験は,本手法の利点を実証している。
論文 参考訳(メタデータ) (2024-08-18T06:27:30Z) - A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。
このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文 参考訳(メタデータ) (2024-07-11T17:50:34Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - A Framework for Scalable Ambient Air Pollution Concentration Estimation [0.0]
英国では大気汚染が重要な問題であり、大気汚染濃度のデータが大気質の改善を目的とした介入の基礎となっている。
欠落した測度を埋めることにより,時間的・空間的データギャップに対処するデータ駆動型機械学習モデルフレームワークを提案する。
このアプローチは、2018年を通してイングランドの包括的なデータセットを1kmx1kmの時間分解能で提供する。
論文 参考訳(メタデータ) (2024-01-16T18:03:07Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Combining Data-driven Supervision with Human-in-the-loop Feedback for
Entity Resolution [47.90125404360125]
同一人物を表すデータポイントを特定し、統合するモデルを構築します。
このケーススタディでは、トレーニング・プロダクション性能のばらつきを解消するために、私たちのHuman-in-the-loopを有効にした、データ中心のソリューションについて論じる。
論文 参考訳(メタデータ) (2021-11-20T02:22:12Z) - Measuring Data Collection Diligence for Community Healthcare [23.612133021992868]
地域保健従事者(CHW)による非宗教的データ収集は、発展途上国において重要な課題である。
本研究では,データ収集のディリジェンススコアを定義し,テストする。
インドにおけるNGOのフィールドモニタを用いて,本フレームワークを地上で検証した。
論文 参考訳(メタデータ) (2020-11-05T16:45:03Z) - Trust and Transparency in Contact Tracing Applications [81.07729301514182]
世界的な新型コロナウイルスの感染拡大で、新型コロナウイルスの感染拡大を抑える取り組みが進められている。
これらの取り組みの1つは、感染した人への暴露を通じて病気を発症するリスクがある人を特定するために接触追跡を使用することである。
人間の接触トレーサの作業を補うために、デジタル接触追跡ソリューションの開発と利用に大きな関心が寄せられている。
これらのアプリケーションによる機密性の高い個人情報の収集と利用は、これらのソリューションに有利な関心を持つステークホルダーグループによる多くの懸念につながっている。
論文 参考訳(メタデータ) (2020-06-19T20:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。