論文の概要: Text Classification in the Wild: a Large-scale Long-tailed Name
Normalization Dataset
- arxiv url: http://arxiv.org/abs/2302.09509v1
- Date: Sun, 19 Feb 2023 08:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:10:17.428621
- Title: Text Classification in the Wild: a Large-scale Long-tailed Name
Normalization Dataset
- Title(参考訳): 野生におけるテキスト分類:大規模長尾名前正規化データセット
- Authors: Jiexing Qi, Shuhao Li, Zhixin Guo, Yusheng Huang, Chenghu Zhou, Weinan
Zhang, Xinbing Wang, and Zhouhan Lin
- Abstract要約: まず、大規模機関名正規化データセットLoT-insts1を収集する。
大規模なマルチショットクラスから、少数ショットとゼロショットの学習シナリオを分離する。
本稿では,小ショットおよびゼロショットテストセット上での分布外一般化を改良したBERTモデルを提案する。
- 参考スコア(独自算出の注目度): 32.41466058437854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world data usually exhibits a long-tailed distribution,with a few
frequent labels and a lot of few-shot labels. The study of institution name
normalization is a perfect application case showing this phenomenon. There are
many institutions worldwide with enormous variations of their names in the
publicly available literature. In this work, we first collect a large-scale
institution name normalization dataset LoT-insts1, which contains over 25k
classes that exhibit a naturally long-tailed distribution. In order to isolate
the few-shot and zero-shot learning scenarios from the massive many-shot
classes, we construct our test set from four different subsets: many-, medium-,
and few-shot sets, as well as a zero-shot open set. We also replicate several
important baseline methods on our data, covering a wide range from search-based
methods to neural network methods that use the pretrained BERT model. Further,
we propose our specially pretrained, BERT-based model that shows better
out-of-distribution generalization on few-shot and zero-shot test sets.
Compared to other datasets focusing on the long-tailed phenomenon, our dataset
has one order of magnitude more training data than the largest existing
long-tailed datasets and is naturally long-tailed rather than manually
synthesized. We believe it provides an important and different scenario to
study this problem. To our best knowledge, this is the first natural language
dataset that focuses on long-tailed and open-set classification problems.
- Abstract(参考訳): 実世界のデータは通常、長い尾の分布を示し、頻繁なラベルと多数のショットラベルがある。
機関名正規化の研究はこの現象を示す完璧な応用例である。
世界中の多くの機関が公開文献にその名前の膨大なバリエーションを持っている。
本研究では,まず,自然にロングテール分布を示す25k以上のクラスを含む大規模施設名正規化データセット lot-insts1 を収集した。
ゼロショットとゼロショットの学習シナリオを巨大な多ショットクラスから分離するために、私たちはテストセットを4つの異なるサブセット(多ショット、中、少数)とゼロショットのオープンセットから構築します。
また,検索に基づく手法から,事前学習されたbertモデルを用いたニューラルネットワーク手法まで幅広い範囲をカバーする,データ上のいくつかの重要なベースライン手法を再現した。
さらに,小ショットおよびゼロショットテストセット上での分布外一般化を改良したBERTモデルを提案する。
ロングテール現象に焦点を当てた他のデータセットと比較して、データセットは既存の最大のロングテールデータセットよりも1桁多くトレーニングデータを持ち、手動で合成するのではなく、自然にロングテールです。
私たちは、この問題を研究する上で重要な、異なるシナリオを提供すると信じています。
私たちの知る限りでは、これはロングテールとオープンセットの分類問題に焦点を当てた最初の自然言語データセットです。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文 参考訳(メタデータ) (2023-09-07T08:53:16Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning [10.57079240576682]
本稿では,大規模未ラベルのオープンセットが利用可能であるという前提の下で,オープンセットの自己改善型学習問題を新たに導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
実験により,SimCoreは表現学習性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-03-20T13:38:29Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。