Fugu-MT 論文翻訳(概要): Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation

論文の概要: Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation

arxiv url: http://arxiv.org/abs/2102.01818v1
Date: Wed, 3 Feb 2021 00:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 05:09:52.278448
Title: Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation
Title（参考訳）: 記憶と一般化: nlp性能評価におけるデータ漏洩の定量化
Authors: Aparna Elangovan, Jiayuan He, Karin Verspoor
Abstract要約: 自然言語処理(NLP)における多くのタスクに対する最先端手法の有効性と一般化性を評価するために、パブリックデータセットがしばしば使用される。列車とテストデータセットの重複の存在は、インフレーションされた結果をもたらし、モデルを記憶し、それを一般化する能力として解釈するモデルの能力を不注意に評価する。我々は、NLPタスクの評価に使用される複数の公開データセットの試験データにトレーニングデータの漏洩を識別し、その漏洩がモデルを記憶または一般化する能力に与える影響を評価する。
参考スコア（独自算出の注目度）: 4.98030422694461
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Public datasets are often used to evaluate the efficacy and generalizability of state-of-the-art methods for many tasks in natural language processing (NLP). However, the presence of overlap between the train and test datasets can lead to inflated results, inadvertently evaluating the model's ability to memorize and interpreting it as the ability to generalize. In addition, such data sets may not provide an effective indicator of the performance of these methods in real world scenarios. We identify leakage of training data into test data on several publicly available datasets used to evaluate NLP tasks, including named entity recognition and relation extraction, and study them to assess the impact of that leakage on the model's ability to memorize versus generalize.
Abstract（参考訳）: パブリックデータセットは、自然言語処理(nlp)における多くのタスクにおける最先端手法の有効性と一般化性を評価するためにしばしば使用される。しかし、列車とテストデータセットの重なりがあるため、結果が膨らみ、モデルの記憶能力が不注意に評価され、一般化する能力として解釈される。さらに、このようなデータセットは、現実のシナリオにおけるこれらのメソッドのパフォーマンスの効果的な指標を提供しないかもしれない。名前付きエンティティ認識や関係抽出など、NLPタスクを評価するために使用されるいくつかの公開データセットの試験データへのトレーニングデータの漏洩を特定し、その漏洩がモデルが記憶する能力と一般化に対する影響を評価する。

関連論文リスト

Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。トレーニングデータと評価データセットの重複がパフォーマンス評価を膨らませる。データ汚染検出に関する47の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文参考訳（メタデータ） (2024-10-24T17:58:22Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文参考訳（メタデータ） (2023-10-20T05:44:39Z)
On the Universal Adversarial Perturbations for Efficient Data-free Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文参考訳（メタデータ） (2023-06-27T02:54:07Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Data Valuation Without Training of a Model [8.89493507314525]
本稿では、ニューラルネットワークの一般化における個々のインスタンスの影響を定量化するために、複雑性ギャップスコアと呼ばれるトレーニング不要なデータ評価スコアを提案する。提案したスコアは、インスタンスの不規則性を定量化し、トレーニング中に各データインスタンスがネットワークパラメータの総移動にどの程度貢献するかを測定する。
論文参考訳（メタデータ） (2023-01-03T02:19:20Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
On Generalisability of Machine Learning-based Network Intrusion Detection Systems [0.0]
本稿では,4つのベンチマークNIDSデータセットを用いて,教師付き学習モデルと教師なし学習モデルの評価を行う。我々の調査は、検討されたモデルのうちどのモデルもすべての研究されたデータセットを一般化できないことを示唆している。また,本研究では,教師なし学習手法が,検討シナリオにおける教師付き学習モデルよりも一般化されていることも示唆した。
論文参考訳（メタデータ） (2022-05-09T08:26:48Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
Regularizing Models via Pointwise Mutual Information for Named Entity Recognition [17.767466724342064]
ドメイン内での性能を向上しつつ、一般化能力を高めるために、PMI(Pointwise Mutual Information)を提案する。提案手法により,ベンチマークデータセットの単語とラベルの相関度を高く抑えることができる。長い名前と複雑な構造を持つエンティティに対して、これらのエンティティは協調的あるいは特別な文字の偏りによって予測できる。
論文参考訳（メタデータ） (2021-04-15T05:47:27Z)
Learning Unbiased Representations via Mutual Information Backpropagation [36.383338079229695]
特に、モデルによって学習された場合、データのいくつかの属性(バイアス)が一般化特性を著しく損なう可能性がある場合に直面します。本稿では,学習した表現とデータ属性の相互情報を同時に推定し,最小化する,新しいエンドツーエンド最適化手法を提案する。
論文参考訳（メタデータ） (2020-03-13T18:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。