論文の概要: Solution for the EPO CodeFest on Green Plastics: Hierarchical
multi-label classification of patents relating to green plastics using deep
learning
- arxiv url: http://arxiv.org/abs/2302.13784v1
- Date: Wed, 22 Feb 2023 19:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-05 05:42:45.423025
- Title: Solution for the EPO CodeFest on Green Plastics: Hierarchical
multi-label classification of patents relating to green plastics using deep
learning
- Title(参考訳): グリーンプラスチックのepoコードフェストの解決法:深層学習によるグリーンプラスチック関連特許の階層的マルチラベル分類
- Authors: Tingting Qiao, Gonzalo Moro Perez
- Abstract要約: 本研究の目的は,グリーンプラスチック関連技術開示特許の階層的多ラベル特許分類である。
本稿ではまず,この技術の分類手法と,特許を分類する機械学習モデルを学習する方法を提案する。
これを実現するために、我々は、教師付き学習環境で分類モデルを学ぶのに使用できるラベル付きトレーニングデータセットを作成するために、ラベルを特許に自動的に割り当てる戦略を考え出した。
- 参考スコア(独自算出の注目度): 4.050982413149992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work aims at hierarchical multi-label patents classification for patents
disclosing technologies related to green plastics. This is an emerging field
for which there is currently no classification scheme, and hence, no labeled
data is available, making this task particularly challenging. We first propose
a classification scheme for this technology and a way to learn a machine
learning model to classify patents into the proposed classification scheme. To
achieve this, we come up with a strategy to automatically assign labels to
patents in order to create a labeled training dataset that can be used to learn
a classification model in a supervised learning setting. Using said training
dataset, we come up with two classification models, a SciBERT Neural Network
(SBNN) model and a SciBERT Hierarchical Neural Network (SBHNN) model. Both
models use a BERT model as a feature extractor and on top of it, a neural
network as a classifier. We carry out extensive experiments and report commonly
evaluation metrics for this challenging classification problem. The experiment
results verify the validity of our approach and show that our model sets a very
strong benchmark for this problem. We also interpret our models by visualizing
the word importance given by the trained model, which indicates the model is
capable to extract high-level semantic information of input documents. Finally,
we highlight how our solution fulfills the evaluation criteria for the EPO
CodeFest and we also outline possible directions for future work. Our code has
been made available at https://github.com/epo/CF22-Green-Hands
- Abstract(参考訳): 本研究の目的は,グリーンプラスチック関連技術開示特許の階層的多ラベル特許分類である。
これは現在分類スキームが存在しない新興分野であり、ラベル付きデータは利用できないため、この課題は特に困難である。
まず,本技術の分類法と,提案する分類法に特許を分類する機械学習モデルを学ぶ方法を提案する。
これを実現するために,ラベルを特許に自動的に割り当てて,教師付き学習環境で分類モデルを学ぶためのラベル付きトレーニングデータセットを作成する戦略を考案した。
トレーニングデータセットを用いて、SciBERT Neural Network(SBNN)モデルとSciBERT Hierarchical Neural Network(SBHNN)モデルという2つの分類モデルを提案する。
どちらのモデルも特徴抽出器としてbertモデルを使用し、その上にニューラルネットワークを分類器として使用する。
我々は,この難解な分類問題に対して,広範囲な実験を行い,一般的な評価指標を報告する。
実験の結果,本手法の有効性を検証し,本モデルがこの問題に対する強力なベンチマークとなることを示す。
また,本モデルが入力文書の高レベルな意味情報を抽出できることを示す訓練されたモデルによって与えられる単語の重要性を可視化することで,モデルを解釈する。
最後に、私たちのソリューションがEPO CodeFestの評価基準をどのように満たしているかを強調し、今後の作業の方向性を概説する。
私たちのコードはhttps://github.com/epo/CF22-Green-Handsで公開されています。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Neuro-symbolic Rule Learning in Real-world Classification Tasks [75.0907310059298]
pix2ruleのニューラルDNFモジュールを拡張し、実世界のマルチクラスおよびマルチラベル分類タスクにおけるルール学習をサポートする。
多クラス分類において相互排他性を強制するニューラルDNF-EO(Exactly One)と呼ばれる新しい拡張モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T13:27:14Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - Semi-supervised classification using a supervised autoencoder for
biomedical applications [2.578242050187029]
私たちは、ラベルをオートエンコーダの潜在空間にエンコードするネットワークアーキテクチャを作成します。
学習したネットワークを用いて未学習のサンプルを分類する。
論文 参考訳(メタデータ) (2022-08-22T13:51:00Z) - The Care Label Concept: A Certification Suite for Trustworthy and
Resource-Aware Machine Learning [5.684803689061448]
機械学習アプリケーションがユビキタスになった。これにより、マシンラーニングを信頼できるものにするための努力が増えた。
メソッドや学習モデルを理解するために時間を費やしたくない人のために、ケアラベルを提供しています。
ケアラベルは、保証が保持されているかどうかをテストする認定スイートの結果です。
論文 参考訳(メタデータ) (2021-06-01T14:16:41Z) - Highly Efficient Representation and Active Learning Framework for
Imbalanced Data and its Application to COVID-19 X-Ray Classification [0.7829352305480284]
胸部X線を分類するためのデータ効率の高い分類および能動的学習フレームワークを提案する。
これは(1)畳み込みニューラルネットワークの教師なし表現学習と(2)ガウス過程法に基づいている。
利用可能なラベルのトレーニングから正確性に到達するには、ラベル付きデータの10%の$simしか必要ありません。
論文 参考訳(メタデータ) (2021-02-25T02:48:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。