論文の概要: Towards Open-Domain Topic Classification
- arxiv url: http://arxiv.org/abs/2306.17290v1
- Date: Thu, 29 Jun 2023 20:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:03:08.329009
- Title: Towards Open-Domain Topic Classification
- Title(参考訳): オープンドメイントピックの分類に向けて
- Authors: Hantian Ding, Jinrui Yang, Yuqian Deng, Hongming Zhang, Dan Roth
- Abstract要約: ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
- 参考スコア(独自算出の注目度): 69.21234350688098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an open-domain topic classification system that accepts
user-defined taxonomy in real time. Users will be able to classify a text
snippet with respect to any candidate labels they want, and get instant
response from our web interface. To obtain such flexibility, we build the
backend model in a zero-shot way. By training on a new dataset constructed from
Wikipedia, our label-aware text classifier can effectively utilize implicit
knowledge in the pretrained language model to handle labels it has never seen
before. We evaluate our model across four datasets from various domains with
different label sets. Experiments show that the model significantly improves
over existing zero-shot baselines in open-domain scenarios, and performs
competitively with weakly-supervised models trained on in-domain data.
- Abstract(参考訳): ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、webインターフェースから即座に応答を得られるようになります。
このような柔軟性を得るために、バックエンドモデルをゼロショットで構築する。
wikipediaから構築された新しいデータセットをトレーニングすることで、ラベル認識テキスト分類器は、トレーニング済みの言語モデルの暗黙の知識を効果的に活用して、これまで見たことのないラベルを処理することができます。
ラベルセットの異なるドメインから4つのデータセットにまたがるモデルを評価する。
実験により、オープンドメインシナリオにおける既存のゼロショットベースラインよりも大幅に改善され、ドメイン内のデータに基づいてトレーニングされた弱い教師付きモデルと競合することが示された。
関連論文リスト
- From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Using Psuedolabels for training Sentiment Classifiers makes the model
generalize better across datasets [0.0]
パブリックな感情分類APIでは、ドメイン間のデータアノテート能力に制限のある、さまざまなタイプのデータに対してうまく機能する分類器をどうやって設定すればよいのか?
我々は、このデータセット上の異なるドメインと擬似ラベルから大量の無注釈データが与えられた場合、異なるデータセットにまたがってよりよく一般化される感情分類器を訓練できることを示した。
論文 参考訳(メタデータ) (2021-10-05T17:47:15Z) - Zero-Shot Federated Learning with New Classes for Audio Classification [0.7106986689736827]
フェデレーション学習は、異なるユーザデバイスから洞察を抽出する効果的な方法である。
完全に見えないデータ分布を持つ新しいクラスは、フェデレートされた学習環境で任意のデバイスにストリームすることができる。
フェデレート学習におけるこれらの課題に対処する統合ゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-18T09:32:19Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Automatic Discovery of Novel Intents & Domains from Text Utterances [18.39942131996558]
本稿では,ラベルのない大量のデータから新しいドメインや意図を自動的に発見する新しいフレームワークADVINを提案する。
ADVINは3つのベンチマークデータセットのベースラインと、商用音声処理エージェントからの実際のユーザ発話を大きく上回る。
論文 参考訳(メタデータ) (2020-05-22T00:47:10Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。