論文の概要: Characterizing and Measuring Linguistic Dataset Drift
- arxiv url: http://arxiv.org/abs/2305.17127v1
- Date: Fri, 26 May 2023 17:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:09:00.429701
- Title: Characterizing and Measuring Linguistic Dataset Drift
- Title(参考訳): 言語的データセットドリフトの特性と測定
- Authors: Tyler A. Chang, Kishaloy Halder, Neha Anna John, Yogarshi Vyas,
Yassine Benajiba, Miguel Ballesteros, Dan Roth
- Abstract要約: 本稿では,語彙,構造,意味的ドリフトという3次元の言語データセットドリフトを提案する。
これらの次元は、内容語頻度の発散、統語的発散、および単語周波数で捉えない意味の変化に対応している。
ドリフトメトリクスは、ドメイン外モデルの精度を予測する上で、以前のメトリクスよりも効果的であることが分かりました。
- 参考スコア(独自算出の注目度): 65.28821163863665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP models often degrade in performance when real world data distributions
differ markedly from training data. However, existing dataset drift metrics in
NLP have generally not considered specific dimensions of linguistic drift that
affect model performance, and they have not been validated in their ability to
predict model performance at the individual example level, where such metrics
are often used in practice. In this paper, we propose three dimensions of
linguistic dataset drift: vocabulary, structural, and semantic drift. These
dimensions correspond to content word frequency divergences, syntactic
divergences, and meaning changes not captured by word frequencies (e.g. lexical
semantic change). We propose interpretable metrics for all three drift
dimensions, and we modify past performance prediction methods to predict model
performance at both the example and dataset level for English sentiment
classification and natural language inference. We find that our drift metrics
are more effective than previous metrics at predicting out-of-domain model
accuracies (mean 16.8% root mean square error decrease), particularly when
compared to popular fine-tuned embedding distances (mean 47.7% error decrease).
Fine-tuned embedding distances are much more effective at ranking individual
examples by expected performance, but decomposing into vocabulary, structural,
and semantic drift produces the best example rankings of all considered
model-agnostic drift metrics (mean 6.7% ROC AUC increase).
- Abstract(参考訳): NLPモデルは、実世界のデータ分布がトレーニングデータと著しく異なる場合、しばしば性能が低下する。
しかしながら、NLPの既存のデータセットドリフトメトリクスは、一般的に、モデル性能に影響を与える言語ドリフトの特定の次元を考慮せず、そのような指標が実際によく使用される個々のサンプルレベルでモデルパフォーマンスを予測する能力については検証されていない。
本稿では,言語データセットのドリフトの3次元(語彙,構造,意味的ドリフト)を提案する。
これらの次元は、内容語周波数の発散、統語的発散、および単語周波数で捉えない変化(語彙的意味変化など)に対応する。
本研究では,3つのドリフト次元すべてに対する解釈可能なメトリクスを提案し,過去のパフォーマンス予測法を改良して,英語感情分類と自然言語推論の例とデータセットレベルでのモデル性能を予測する。
特に一般的な微調整された埋め込み距離(47.7%の誤差減少)と比較すると、ドリフトメトリクスはドメイン外のモデルの確率を予測するのに以前の指標よりも効果的であることがわかった。
微調整された埋め込み距離は、期待された性能で個々の例をランク付けするのにはるかに効果的であるが、語彙、構造的、意味的なドリフトに分解すると、すべてのモデルに依存しないドリフト指標(平均6.7% ROC AUCの増加)の最良の例ランキングを生成する。
関連論文リスト
- What is the Right Notion of Distance between Predict-then-Optimize Tasks? [35.842182348661076]
特徴量やラベル次元にのみ依存する従来のデータセット距離は,PtO(Predict-then-then-then)の文脈では情報性が欠如していることが示される。
下流決定の影響を組み込んだ新しいデータセット距離を提案する。
以上の結果から,この決定認識データセット距離は,PtOコンテキストにおける適応成功を効果的に捉えていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-11T04:13:17Z) - Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Process for Adapting Language Models to Society (PALMS) with
Values-Targeted Datasets [0.0]
言語モデルは有害で偏りのある出力を生成し、望ましくない振る舞いを示すことができる。
本稿では,言語モデルから社会への適応プロセス(PALMS)を提案する。
言語モデルの振る舞いを著しく調整することは、手書きの小さなデータセットで実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:38:28Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。