論文の概要: Classification and Clustering of arXiv Documents, Sections, and
Abstracts, Comparing Encodings of Natural and Mathematical Language
- arxiv url: http://arxiv.org/abs/2005.11021v1
- Date: Fri, 22 May 2020 06:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:40:45.941167
- Title: Classification and Clustering of arXiv Documents, Sections, and
Abstracts, Comparing Encodings of Natural and Mathematical Language
- Title(参考訳): 自然言語と数学的言語の符号化の比較によるarxiv文書、セクション、要約の分類とクラスタリング
- Authors: Philipp Scharpf, Moritz Schubotz, Abdou Youssef, Felix Hamborg, Norman
Meuschke, Bela Gipp
- Abstract要約: 本稿では、自然言語と数学的言語のエンコーディングの選択と組み合わせが、文書の分類とクラスタリングに数学的内容がどう影響するかを示す。
私たちのエンコーディングは、分類精度が最大で82.8%、クラスタ純度が最大で69.4%に達する。
文書の分類において,コンピュータが人間の専門家より優れていることを示す。
- 参考スコア(独自算出の注目度): 8.522576207528017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we show how selecting and combining encodings of natural and
mathematical language affect classification and clustering of documents with
mathematical content. We demonstrate this by using sets of documents, sections,
and abstracts from the arXiv preprint server that are labeled by their subject
class (mathematics, computer science, physics, etc.) to compare different
encodings of text and formulae and evaluate the performance and runtimes of
selected classification and clustering algorithms. Our encodings achieve
classification accuracies up to $82.8\%$ and cluster purities up to $69.4\%$
(number of clusters equals number of classes), and $99.9\%$ (unspecified number
of clusters) respectively. We observe a relatively low correlation between text
and math similarity, which indicates the independence of text and formulae and
motivates treating them as separate features of a document. The classification
and clustering can be employed, e.g., for document search and recommendation.
Furthermore, we show that the computer outperforms a human expert when
classifying documents. Finally, we evaluate and discuss multi-label
classification and formula semantification.
- Abstract(参考訳): 本稿では,自然言語と数学的言語のエンコーディングの選択と組み合わせが,文書の分類とクラスタリングに与える影響について述べる。
そこで,本論文では,対象とするクラス(数学,計算機科学,物理など)でラベル付けされたarXivプリプリントサーバの文書,セクション,要約の集合を用いて,テキストと公式の異なるエンコーディングを比較し,選択した分類とクラスタリングアルゴリズムの性能と実行性を評価する。
我々のエンコーディングは、分類精度を最大で82.8\%$、クラスタ純度を最大で69.4\%$(クラスタ数はクラス数に等しい)、99.9\%$(クラスタ数未特定)を達成する。
テキストと数学の類似性は相対的に低い相関関係にあり,テキストと公式の独立性を示し,文書の異なる特徴として扱うモチベーションを与える。
分類とクラスタリングは、例えば、文書検索や推奨のために利用することができる。
さらに,文書分類において,コンピュータが人間に勝ることを示す。
最後に,複数ラベルの分類と定式化について検討する。
関連論文リスト
- ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Towards Math-Aware Automated Classification and Similarity Search of
Scientific Publications: Methods of Mathematical Content Representations [0.456877715768796]
STEM文書における自動分類と類似性検索に適した数学的内容表現について検討する。
これらの手法は、arXiv.org論文のサブセットにおいて、参照分類として数学対象分類(MSC)を用いて評価される。
論文 参考訳(メタデータ) (2021-10-08T11:27:40Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - X-Class: Text Classification with Extremely Weak Supervision [39.25777650619999]
本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-10-24T06:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。