論文の概要: Knowledge-based Document Classification with Shannon Entropy
- arxiv url: http://arxiv.org/abs/2206.02363v1
- Date: Mon, 6 Jun 2022 05:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:05:57.573830
- Title: Knowledge-based Document Classification with Shannon Entropy
- Title(参考訳): シャノンエントロピーを用いた知識に基づく文書分類
- Authors: AtMa P.O. Chan
- Abstract要約: そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document classification is the detection specific content of interest in text
documents. In contrast to the data-driven machine learning classifiers,
knowledge-based classifiers can be constructed based on domain specific
knowledge, which usually takes the form of a collection of subject related
keywords. While typical knowledge-based classifiers compute a prediction score
based on the keyword abundance, it generally suffers from noisy detections due
to the lack of guiding principle in gauging the keyword matches. In this paper,
we propose a novel knowledge-based model equipped with Shannon Entropy, which
measures the richness of information and favors uniform and diverse keyword
matches. Without invoking any positive sample, such method provides a simple
and explainable solution for document classification. We show that the Shannon
Entropy significantly improves the recall at fixed level of false positive
rate. Also, we show that the model is more robust against change of data
distribution at inference while compared with traditional machine learning,
particularly when the positive training samples are very limited.
- Abstract(参考訳): 文書分類は、テキスト文書における興味のある特定の内容を検出することである。
データ駆動型機械学習分類器とは対照的に、知識に基づく分類器はドメイン固有の知識に基づいて構築することができる。
一般的な知識に基づく分類器はキーワードの多量性に基づいて予測スコアを計算するが、一般的にはキーワードマッチングをゲージする際の指針原理が欠如しているためノイズ検出に悩まされる。
本稿では,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む,シャノンエントロピーを備えた新しい知識ベースモデルを提案する。
正のサンプルを呼び出すことなく、このような手法は文書分類の単純かつ説明可能なソリューションを提供する。
シャノンエントロピーは偽陽性率の一定レベルでのリコールを著しく改善することを示した。
また,従来の機械学習に比べて,特に正のトレーニングサンプルが極めて限られている場合には,推論時のデータ分布の変化に対してより頑健であることを示す。
関連論文リスト
- Simple and Interpretable Probabilistic Classifiers for Knowledge Graphs [0.0]
本稿では,単純な信念ネットワークの学習に基づく帰納的アプローチについて述べる。
このようなモデルを(確率的な)公理(あるいは規則)に変換する方法を示す。
論文 参考訳(メタデータ) (2024-07-09T17:05:52Z) - Context-Specific Refinements of Bayesian Network Classifiers [1.9136291802656262]
分類器の新しいクラスとベイズネットワークの関係について検討する。
モデルにデータ駆動学習ルーチンを導入し実装する。
この研究は、非対称情報を埋め込んだモデルが分類精度を高めることを実証している。
論文 参考訳(メタデータ) (2024-05-28T15:50:50Z) - Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文 参考訳(メタデータ) (2024-01-15T00:06:24Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - Concept Matching for Low-Resource Classification [36.871182660669746]
非常に少ないトレーニングデータが存在する場合の分類課題に取り組むためのモデルを提案する。
入力空間におけるマッチングの確率を計算する理論的に健全なメカニズムと正確なマッチングの概念を近似する。
論文 参考訳(メタデータ) (2020-06-01T13:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。