論文の概要: Method for Customizable Automated Tagging: Addressing the Problem of
Over-tagging and Under-tagging Text Documents
- arxiv url: http://arxiv.org/abs/2005.00042v1
- Date: Thu, 30 Apr 2020 18:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:17:23.280475
- Title: Method for Customizable Automated Tagging: Addressing the Problem of
Over-tagging and Under-tagging Text Documents
- Title(参考訳): カスタマイズ可能な自動タグ作成方法:オーバータグおよびアンダータグ文書の問題に対処する
- Authors: Maharshi R. Pandya, Jessica Reyes, Bob Vanderheyden
- Abstract要約: 著者が提供するタグを使用して、新しいドキュメントのタグを予測すると、タグのオーバージェネレーションが発生することが多い。
本稿では,大規模文書コーパスに広く適用可能な,普遍的なタグセットを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using author provided tags to predict tags for a new document often results
in the overgeneration of tags. In the case where the author doesn't provide any
tags, our documents face the severe under-tagging issue. In this paper, we
present a method to generate a universal set of tags that can be applied widely
to a large document corpus. Using IBM Watson's NLU service, first, we collect
keywords/phrases that we call "complex document tags" from 8,854 popular
reports in the corpus. We apply LDA model over these complex document tags to
generate a set of 765 unique "simple tags". In applying the tags to a corpus of
documents, we run each document through the IBM Watson NLU and apply
appropriate simple tags. Using only 765 simple tags, our method allows us to
tag 87,397 out of 88,583 total documents in the corpus with at least one tag.
About 92.1% of the total 87,397 documents are also determined to be
sufficiently-tagged. In the end, we discuss the performance of our method and
its limitations.
- Abstract(参考訳): authorが提供するタグを使って新しいドキュメントのタグを予測すると、しばしばタグが過剰に生成されます。
著者がタグを提供していない場合、私たちのドキュメントは深刻なアンダータグ問題に直面します。
本稿では,大規模文書コーパスに広く適用可能なタグの普遍的な集合を生成する手法を提案する。
まず、IBM WatsonのNLUサービスを使って、コーパスで人気のある8,854のレポートから"複合ドキュメントタグ"と呼ぶキーワード/フレーズを収集します。
複雑な文書タグにLDAモデルを適用し、765個のユニークな「単純なタグ」を生成する。
文書のコーパスにタグを適用する際、各文書をIBM Watson NLUを通して実行し、適切な単純なタグを適用する。
765の単純なタグだけで、コーパス内の88,583のドキュメントのうち87,397のタグを、少なくとも1つのタグでタグ付けできます。
87,397の文書のうち92.1%が十分にタグ付けされていると判断されている。
最後に,本手法の性能とその限界について考察する。
関連論文リスト
- Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - Weakly-Supervised Scientific Document Classification via
Retrieval-Augmented Multi-Stage Training [24.2734548438594]
本稿では,ラベル名のみを用いた科学的文書分類のための弱教師付きアプローチを提案する。
科学的ドメインでは、ラベル名は文書コーパスに現れないドメイン固有の概念を含むことが多い。
WANDER は平均 11.9% で最高のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-12T15:50:13Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - SenTag: a Web-based Tool for Semantic Annotation of Textual Documents [4.910379177401659]
SenTagはテキスト文書のセマンティックアノテーションに焦点を当てたウェブベースのツールである。
アプリケーションの主な目標は、タグ付けプロセスの容易化と、出力ドキュメントのエラーの削減と回避である。
また、テキストコーパスに係わるアノテータの合意のレベルを評価することもできる。
論文 参考訳(メタデータ) (2021-09-16T08:39:33Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。