論文の概要: NatCat: Weakly Supervised Text Classification with Naturally Annotated
Resources
- arxiv url: http://arxiv.org/abs/2009.14335v2
- Date: Sun, 19 Sep 2021 17:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:29:38.941522
- Title: NatCat: Weakly Supervised Text Classification with Naturally Annotated
Resources
- Title(参考訳): natcat: 自然に注釈付きリソースを持つ弱い教師付きテキスト分類
- Authors: Zewei Chu, Karl Stratos, Kevin Gimpel
- Abstract要約: NatCatは、ウィキペディア、Stack Exchange、Redditの3つのデータソースから構築された、テキスト分類のための大規模なリソースである。
NatCatは、オンラインコミュニティ内で自然に起こる手作業によるキュレーションから派生した文書分類ペアで構成されている。
- 参考スコア(独自算出の注目度): 53.01755762559001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe NatCat, a large-scale resource for text classification
constructed from three data sources: Wikipedia, Stack Exchange, and Reddit.
NatCat consists of document-category pairs derived from manual curation that
occurs naturally within online communities. To demonstrate its usefulness, we
build general purpose text classifiers by training on NatCat and evaluate them
on a suite of 11 text classification tasks (CatEval), reporting large
improvements compared to prior work. We benchmark different modeling choices
and resource combinations and show how tasks benefit from particular NatCat
data sources.
- Abstract(参考訳): NatCatは3つのデータソース(Wikipedia、Stack Exchange、Reddit)から構築されたテキスト分類のための大規模なリソースである。
NatCatは、オンラインコミュニティ内で自然に起こる手作業によるキュレーションから派生した文書分類ペアで構成されている。
その有用性を示すために,NatCatをトレーニングして汎用テキスト分類器を構築し,それを11種類のテキスト分類タスク(CatEval)で評価し,従来の作業と比べて大きな改善を報告した。
さまざまなモデリング選択とリソースの組み合わせをベンチマークし、タスクが特定のNatCatデータソースからどのような恩恵を受けるかを示す。
関連論文リスト
- SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging
Semantic, Lexical, and Hierarchical Features [0.7680851067579922]
DBPediaクラスはWikipediaのカテゴリやリストに割り当てられる。
CaLiGraphの既存のアプローチは、不完全できめ細かいマッピングを生み出している。
我々のモデルSLHCatは、3000の微細なCaLiGraph-DBpediaマッピングペアをアノテートすることで構築されたベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-09-21T05:38:14Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z) - Learning Cross-Context Entity Representations from Text [9.981223356176496]
本稿では,テキストコンテキストからエンティティのコンテキスト独立表現を学習するための補間タスクの利用について検討する。
ニューラルネットワークの大規模トレーニングによって,高品質な実体表現を学習できることが示される。
我々のグローバルな実体表現は、スコットランドのサッカー選手のようなきめ細かい型カテゴリをエンコードし、トリビアの質問に答えることができます。
論文 参考訳(メタデータ) (2020-01-11T15:30:56Z) - Adapting Deep Learning for Sentiment Classification of Code-Switched
Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。
コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-04T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。