論文の概要: CinPatent: Datasets for Patent Classification
- arxiv url: http://arxiv.org/abs/2212.12192v3
- Date: Fri, 15 Mar 2024 16:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:01:36.004166
- Title: CinPatent: Datasets for Patent Classification
- Title(参考訳): CinPatent: 特許分類のためのデータセット
- Authors: Minh-Tien Nguyen, Nhung Bui, Manh Tran-Tien, Linh Le, Huy-The Vu,
- Abstract要約: 我々は、CPCコードを用いて収集した英語と日本語の2つの新しいデータセットを紹介した。
英語データセットには45,131の特許文書と425のラベルがあり、日本語データセットには54,657のドキュメントと523のラベルが含まれている。
本研究では,2つのデータセット上での強いマルチラベルテキスト分類手法の性能を比較した。
- 参考スコア(独自算出の注目度): 4.3187100116167025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patent classification is the task that assigns each input patent into several codes (classes). Due to its high demand, several datasets and methods have been introduced. However, the lack of both systematic performance comparison of baselines and access to some datasets creates a gap for the task. To fill the gap, we introduce two new datasets in English and Japanese collected by using CPC codes. The English dataset includes 45,131 patent documents with 425 labels and the Japanese dataset contains 54,657 documents with 523 labels. To facilitate the next studies, we compare the performance of strong multi-label text classification methods on the two datasets. Experimental results show that AttentionXML is consistently better than other strong baselines. The ablation study is also conducted in two aspects: the contribution of different parts (title, abstract, description, and claims) of a patent and the behavior of baselines in terms of performance with different training data segmentation. We release the two new datasets with the code of the baselines.
- Abstract(参考訳): 特許分類は、各入力特許を複数のコード(クラス)に割り当てるタスクである。
需要が高いため、いくつかのデータセットや手法が導入されている。
しかしながら、ベースラインの体系的なパフォーマンス比較といくつかのデータセットへのアクセスの欠如は、タスクのギャップを生み出します。
このギャップを埋めるために、CPCコードを用いて収集した英語と日本語の新しいデータセットを2つ導入する。
英語データセットには45,131の特許文書と425のラベルがあり、日本語データセットには54,657のドキュメントと523のラベルが含まれている。
次の研究を容易にするために,2つのデータセット上での強力な多ラベルテキスト分類手法の性能を比較した。
実験の結果、AttentionXMLは他の強力なベースラインよりも一貫して優れていることが示されています。
アブレーション研究は、特許の異なる部分(タイトル、抽象、記述、クレーム)の貢献と、異なるトレーニングデータセグメンテーションによるパフォーマンスの面でのベースラインの挙動の2つの側面で実施される。
2つの新しいデータセットをベースラインのコードでリリースします。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Recent Advances in Hierarchical Multi-label Text Classification: A
Survey [11.709847202580505]
階層的マルチラベルテキスト分類は、入力されたテキストを複数のラベルに分類することを目的としており、その中にラベルが構造化され階層的である。
これは、科学文献のアーカイブなど、多くの現実世界の応用において重要なタスクである。
論文 参考訳(メタデータ) (2023-07-30T16:13:00Z) - Imbalanced Multi-label Classification for Business-related Text with
Moderately Large Label Spaces [0.30458514384586394]
我々は、特定の不均衡なビジネスデータセットを用いて、マルチラベルテキスト分類のための4つの異なる方法を評価した。
細調整されたBERTは、他の3つの手法よりもかなり優れており、精度の高い値が得られる。
これらの結果は,マルチラベルテキスト分類作業における細調整BERTの有効性を浮き彫りにし,企業にとって有用なツールである可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-12T11:51:50Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Learning Semantic Segmentation from Multiple Datasets with Label Shifts [101.24334184653355]
本論文では,ラベル空間が異なる複数のデータセットを対象としたモデルの自動学習手法であるUniSegを提案する。
具体的には,ラベルの相反と共起を考慮に入れた2つの損失を提案する。
論文 参考訳(メタデータ) (2022-02-28T18:55:19Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。