論文の概要: Text Classification with Novelty Detection
- arxiv url: http://arxiv.org/abs/2009.11119v1
- Date: Wed, 23 Sep 2020 12:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:08:59.742048
- Title: Text Classification with Novelty Detection
- Title(参考訳): 新規検出によるテキスト分類
- Authors: Qi Qin, Wenpeng Hu, Bing Liu
- Abstract要約: 本稿では,テキスト分類における新規な事例や予期せぬ事例を検出する問題について検討する。
従来のテキスト分類では、テストに現れるクラスはトレーニング中に見られたに違いない。
本稿では,元の問題をペアワイズマッチング問題に変換する,より効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 21.75306253494508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of detecting novel or unexpected instances in
text classification. In traditional text classification, the classes appeared
in testing must have been seen in training. However, in many applications, this
is not the case because in testing, we may see unexpected instances that are
not from any of the training classes. In this paper, we propose a significantly
more effective approach that converts the original problem to a pair-wise
matching problem and then outputs how probable two instances belong to the same
class. Under this approach, we present two models. The more effective model
uses two embedding matrices of a pair of instances as two channels of a CNN.
The output probabilities from such pairs are used to judge whether a test
instance is from a seen class or is novel/unexpected. Experimental results show
that the proposed method substantially outperforms the state-of-the-art
baselines.
- Abstract(参考訳): 本稿では,テキスト分類における新規または予期せぬインスタンス検出の問題点について検討する。
従来のテキスト分類では、テストで現れるクラスはトレーニングで見られるはずである。
しかし、多くのアプリケーションでは、これはそうではない。テストでは、トレーニングクラスのいずれかの出身でない予期せぬインスタンスが見られます。
本稿では,元の問題をペアワイズ整合問題に変換し,同じクラスに属する可能性のある2つのインスタンスを出力する,より効果的な手法を提案する。
このアプローチでは,2つのモデルを示す。
より効果的なモデルは、一対のインスタンスの2つの埋め込み行列をcnnの2つのチャネルとして使用する。
このようなペアからのアウトプット確率は、テストインスタンスが参照されたクラスか、新規/予期せぬかの判断に使用される。
実験結果から,提案手法は最先端のベースラインを大幅に上回ることがわかった。
関連論文リスト
- Peter Parker or Spiderman? Disambiguating Multiple Class Labels [0.0]
ディープネットワークは通常、推論中に複数の予測を行う。
本稿では,現代のセグメンテーションと入力属性技術を活用したフレームワークと手法を提案する。
提案手法は,ImageNetバリデーションセットおよび複数のモデル上で,多数のサンプルに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2024-10-25T11:16:28Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Using Metamorphic Relations to Verify and Enhance Artcode Classification [39.36253474867746]
オラクル問題に直面している領域の例として、機械学習を用いて、入力イメージを事前定義されたクラスのセットの1つに分類する自動画像分類がある。
オラクルの問題を軽減するソフトウェアテストへのアプローチは、メタモルフィックテスト(MT)である。
本稿では、Artcodesと呼ばれる視覚的に隠されたマーカーを含む画像の分類問題について検討し、訓練された分類器の検証と拡張にMTを適用した。
論文 参考訳(メタデータ) (2021-08-05T15:54:56Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Manifold-based Test Generation for Image Classifiers [7.226144684379191]
画像分類ニューラルネットワークをテストするには、信頼を刺激するのに十分な現実的なテストデータを取得する必要がある。
本稿では,これらの課題に対処するための新しい枠組みを提案する。
実験により、この手法により、十分に訓練されたモデルであっても、何千もの現実的かつフォールトレベリングなテストケースを効率的に生成できることが示された。
論文 参考訳(メタデータ) (2020-02-15T07:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。