論文の概要: Knowledge-based Document Classification with Shannon Entropy
- arxiv url: http://arxiv.org/abs/2206.02363v1
- Date: Mon, 6 Jun 2022 05:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:05:57.573830
- Title: Knowledge-based Document Classification with Shannon Entropy
- Title(参考訳): シャノンエントロピーを用いた知識に基づく文書分類
- Authors: AtMa P.O. Chan
- Abstract要約: そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document classification is the detection specific content of interest in text
documents. In contrast to the data-driven machine learning classifiers,
knowledge-based classifiers can be constructed based on domain specific
knowledge, which usually takes the form of a collection of subject related
keywords. While typical knowledge-based classifiers compute a prediction score
based on the keyword abundance, it generally suffers from noisy detections due
to the lack of guiding principle in gauging the keyword matches. In this paper,
we propose a novel knowledge-based model equipped with Shannon Entropy, which
measures the richness of information and favors uniform and diverse keyword
matches. Without invoking any positive sample, such method provides a simple
and explainable solution for document classification. We show that the Shannon
Entropy significantly improves the recall at fixed level of false positive
rate. Also, we show that the model is more robust against change of data
distribution at inference while compared with traditional machine learning,
particularly when the positive training samples are very limited.
- Abstract(参考訳): 文書分類は、テキスト文書における興味のある特定の内容を検出することである。
データ駆動型機械学習分類器とは対照的に、知識に基づく分類器はドメイン固有の知識に基づいて構築することができる。
一般的な知識に基づく分類器はキーワードの多量性に基づいて予測スコアを計算するが、一般的にはキーワードマッチングをゲージする際の指針原理が欠如しているためノイズ検出に悩まされる。
本稿では,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む,シャノンエントロピーを備えた新しい知識ベースモデルを提案する。
正のサンプルを呼び出すことなく、このような手法は文書分類の単純かつ説明可能なソリューションを提供する。
シャノンエントロピーは偽陽性率の一定レベルでのリコールを著しく改善することを示した。
また,従来の機械学習に比べて,特に正のトレーニングサンプルが極めて限られている場合には,推論時のデータ分布の変化に対してより頑健であることを示す。
関連論文リスト
- Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - Context-Specific Refinements of Bayesian Network Classifiers [1.9136291802656262]
分類器の新しいクラスとベイズネットワークの関係について検討する。
モデルにデータ駆動学習ルーチンを導入し実装する。
この研究は、非対称情報を埋め込んだモデルが分類精度を高めることを実証している。
論文 参考訳(メタデータ) (2024-05-28T15:50:50Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [22.92968284023414]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - Concept Matching for Low-Resource Classification [36.871182660669746]
非常に少ないトレーニングデータが存在する場合の分類課題に取り組むためのモデルを提案する。
入力空間におけるマッチングの確率を計算する理論的に健全なメカニズムと正確なマッチングの概念を近似する。
論文 参考訳(メタデータ) (2020-06-01T13:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。