論文の概要、ライセンス

# (参考訳) 特許領域における表現学習のための言語情報マスキング [全文訳有]

Linguistically Informed Masking for Representation Learning in the Patent Domain ( http://arxiv.org/abs/2106.05768v1 )

ライセンス: CC BY 4.0
Sophia Althammer, Mark Buckley, Sebastian Hofst\"atter, Allan Hanbury(参考訳) ドメイン特化言語モデルは、類似性マッチング、エンティティ認識、情報検索など、ドメイン特化下流タスクに対してかなりの効果を発揮している。 しかし、そのようなモデルを高度に特定の言語領域に適用するには、事前訓練されたモデルのドメイン適応が必要である。 本稿では,特許の言語パターンにドメイン適応型事前学習を集中させる,経験的動機付け型言語インフォームドマスキング(LIM)手法を提案する。 特許, 科学, 汎用言語間の関連性の違いを定量化し, LIMによるドメイン適応が, IPC分類と類似性マッチングという2つの独立した下流タスクにおいて, 特許言語のドメイン適応表現の性能を評価することによって, 体系的に改良された表現をもたらすことを示す。 特許ドメインに対するドメイン適応において,異なる情報ソースからの学習のバランスが与える影響を実証する。 ソースコードとドメイン適応型プレトレーニング済みの特許言語モデルをhttps://github.com/s ophiaalthammer/paten t-lim.comで公開しています。

Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. However successfully applying such models in highly specific language domains requires domain adaptation of the pre-trained models. In this paper we propose the empirically motivated Linguistically Informed Masking (LIM) method to focus domain-adaptative pre-training on the linguistic patterns of patents, which use a highly technical sublanguage. We quantify the relevant differences between patent, scientific and general-purpose language and demonstrate for two different language models (BERT and SciBERT) that domain adaptation with LIM leads to systematically improved representations by evaluating the performance of the domain-adapted representations of patent language on two independent downstream tasks, the IPC classification and similarity matching. We demonstrate the impact of balancing the learning from different information sources during domain adaptation for the patent domain. We make the source code as well as the domain-adaptive pre-trained patent language models publicly available at https://github.com/s ophiaalthammer/paten t-lim.
公開日: Thu, 10 Jun 2021 14:20:57 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] L C . s c [ 0 1 ]LC。 sc [ 0.60
1 v 8 6 7 5 0 1 v 8 6 7 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Linguistically Informed Masking for Representation Learning in 表現学習のための言語情報マスキング 0.74
the Patent Domain Sophia Althammer 特許ドメイン ソフィア・アルタマー 0.42
TU Vienna Vienna, Austria ツ・ウィーン ウィーン、オーストリア 0.68
sophia.althammer@tuw ien.ac.at sophia.althammer@tuw ien.ac.at 0.47
Mark Buckley Siemens AG マーク・バックリー シーメンスag 0.40
Munich, Germany mark.buckley@siemens .com ミュンヘン、ドイツ mark.buckley@siemens .com 0.65
Sebastian Hofstätter Sebastian Hofstätter 0.85
TU Vienna Vienna, Austria ツ・ウィーン ウィーン、オーストリア 0.68
sebastian.hofstaette r@tuwien.ac.at sebastian.hofstaette r@tuwien.ac.at 0.47
Allan Hanbury TU Vienna アラン・ハンベリー ツ・ウィーン 0.52
Vienna, Austria ウィーン、オーストリア 0.76
allan.hanbury@tuwien .ac.at allan.hanbury@tuwien .ac.at 0.47
ABSTRACT Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. ABSTRACTドメイン固有のコンテキスト型言語モデルは、類似性マッチング、エンティティ認識、情報検索など、ドメイン固有の下流タスクに対してかなりの効果を発揮している。 0.56
However successfully applying such models in highly specific language domains requires domain adaptation of the pretrained models. しかし、そのようなモデルを高度に特定の言語領域に適用するには、事前訓練されたモデルのドメイン適応が必要である。 0.53
In this paper we propose the empirically motivated Linguistically Informed Masking (LIM) method to focus domainadaptative pre-training on the linguistic patterns of patents, which use a highly technical sublanguage. 本稿では,特許の言語パターンにドメイン適応型事前学習を集中させる,経験的動機付け型言語インフォームド・マスキング(LIM)手法を提案する。 0.72
We quantify the relevant differences between patent, scientific and general-purpose language and demonstrate for two different language models (BERT and SciBERT) that domain adaptation with LIM leads to systematically improved representations by evaluating the performance of the domain-adapted representations of patent language on two independent downstream tasks, the IPC classification and similarity matching. 特許, 科学, 汎用言語間の関連性の違いを定量化し, LIMによるドメイン適応が, IPC分類と類似性マッチングという2つの独立した下流タスクにおいて, 特許言語のドメイン適応表現の性能を評価することによって, 体系的に改良された表現をもたらすことを示す。 0.80
We demonstrate the impact of balancing the learning from different information sources during domain adaptation for the patent domain. 特許ドメインに対するドメイン適応において,異なる情報ソースからの学習のバランスが与える影響を実証する。 0.74
We make the source code as well as the domainadaptive pre-trained patent language models publicly available at https://github.com/s ophiaalthammer/paten t-lim. ソースコードと domainadaptive pre-trained patent language model を https://github.com/s ophiaalthammer/paten t-lim.org で公開しています。 0.68
CCS CONCEPTS • Information systems→ Document representation; Language models. CCS CONCEPTS •情報システム→文書表現、言語モデル。 0.86
KEYWORDS Language modelling, representation learning, patent domain, BERT KEYWORDS言語モデリング、表現学習、特許ドメイン、BERT 0.63
1 INTRODUCTION Large scale language models, pre-trained on corpora of general purpose language [6], provide effective representations for text documents, which improve the performance on a variety of downstream tasks including information retrieval, information extraction and similarity matching [4, 17, 31]. 1 汎用言語コーパスに事前学習した大規模言語モデルの導入 [6] は,テキスト文書の効果的な表現を提供し,情報検索,情報抽出,類似度マッチング [4,17,31] など,下流のさまざまなタスクのパフォーマンスを向上させる。 0.85
The representations of contextualized language models are used in production systems in the web and news domains to include semantic knowledge for solving 文脈化言語モデルの表現は、Webやニュースドメインのプロダクションシステムにおいて、問題解決のための意味知識を含むために使用される。 0.65
PatentSemTech, July 15th, 2021, online © 2021 for this paper by its authors. patentemtech, july 15th, 2021 著者による論文のオンライン版は2021年である。 0.71
Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). Creative Commons License Attribution 4.0 International (CC BY 4.0)での使用が許可されている。 0.69
CEUR Workshop Proceedings (CEUR-WS.org) CEURワークショップ(CEUR-WS.org) 0.70
tasks based on text input like search or automated classification [3, 30]. 検索や自動分類のようなテキスト入力に基づくタスク [3, 30]。 0.78
In this paper we propose a novel domain-adaption linguistically informed masking pre-training method for BERT-style language models. 本稿では,BERT型言語モデルのための新しいドメイン適応型言語情報マスキング事前学習手法を提案する。 0.68
We show its suitability for the patent domain and demonstrate its effectiveness for representation learning on patent language. 特許ドメインに対する適合性を示し、特許言語における表現学習の有効性を示す。 0.62
We publish our BERT-based language model pre-trained on patent language data to make our work readily available for the community. 特許言語データに基づいて事前訓練されたBERTベースの言語モデルを公開し、コミュニティで作業を容易に利用できるようにする。 0.52
The suitability of the representations with respect to a given downstream task relies on the assumption that the language of the documents of that downstream task comes from the same or similar distribution as data of the language model. 与えられた下流タスクに対する表現の適合性は、その下流タスクの文書の言語が言語モデルのデータと同じあるいは類似した分布に由来するという仮定に依存する。 0.77
Otherwise domain-adaptive pre-training becomes necessary, as the further the language of the downstream task is from the distribution of the pre-training language, the less relevant information is encoded in the representations [11, 12]. さもなくば、ダウンストリームタスクの言語が事前学習言語の分布から来るので、ドメイン適応型事前学習が必要となり、関連性の低い情報が表現[11,12]に符号化される。 0.62
Therefore we investigate in this paper: RQ1 Which BERT-like pre-trained language model is best suited そこで本研究では, bertライクな事前学習言語モデルに適したrq1 0.59
to representing patent language? 特許言語を表すために? 0.70
We compare the language models BERT [6] (pre-trained on general purpose language) and SciBERT [4] (pre-trained on scientific language for representing patent language). 我々は,BERT [6](汎用言語で事前訓練)とSciBERT [4](特許言語を表現するための科学言語で事前訓練)を比較した。 0.72
We perform domainadaptive pretraining with both models and evaluate the resulting representations on two independent patent-related downstream tasks: IPC classification and similarity matching. IPC分類と類似性マッチングという2つの独立した特許関連下流タスクにおいて、両モデルでドメイン適応型事前訓練を行い、結果の表現を評価する。 0.61
Here we find that the downstream task performance of the SciBERT based representations outperforms the BERT-based representations for both patent-related tasks. ここでは、SciBERTベースの表現の下流タスク性能が、双方の特許関連タスクに対してBERTベースの表現よりも優れていることを確認する。 0.44
Furthermore we reason that this is due to the more fine-grained tokenization of the patent language by the SciBERT model than by the BERT models’ tokenization. さらに、これは、BERTモデルのトークン化よりも、SciBERTモデルによる特許言語のよりきめ細かいトークン化によるものであるとする。 0.61
Patent language contains linguistic patterns which differ from general purpose or scientific language [32] and is characterised by the frequent use of technical terms and novel multi-word expressions, as well as long sentences, chained conjunctions and large noun phrases, as shown in Figure 1. 特許言語は一般の目的や科学的言語とは異なる言語パターン [32] を含み、図1に示すように、長い文、連鎖した結合詞、大きな名詞句だけでなく、技術用語や新しい多語表現の頻用によって特徴付けられる。 0.81
In order to take these linguistic characteristics into account, we propose the domain-adaptive pretraining scheme for BERT-like language models: linguistically informed masking. これらの言語特性を考慮に入れ,言語情報マスキングを用いたBERT型言語モデルのドメイン適応型事前学習方式を提案する。 0.68
Linguistically informed masking shifts the masking probabilities in domain-adaptive pre-training towards the highly informative multi-word terms in patent language. 言語学的にインフォームドされたマスキングは、ドメイン適応事前学習におけるマスキング確率を、特許言語における高度に有意義なマルチワード語にシフトさせる。 0.47
As multiword terms are contained in the noun chunks, the degree of shifting 多語の単語が名詞のチャンクに含まれるため、変化の度合いは 0.63
英語(論文から抽出)日本語訳スコア
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
Althammer, et al Althammer, et al 0.85
What is claimed is: 1. 主張は次のとおりである。 0.50
A hydraulic regeneration deactivation valve to react to a pressure and to deactivation regeneration of a 圧力に反応し、aを不活性化させる油圧再生不活性化弁 0.70
hydraulic cylinder,... 油圧シリンダー... 0.86
Figure 1: An example of a patent claim the masking towards the multi-word terms is here controlled with a noun chunk masking probability 𝑝𝑛𝑐. 図1:特許請求の例 複数単語の単語に対するマスキングは、名詞チャンクマスキング確率pncで制御される。 0.63
We investigate: RQ2 How does domain-adative pre-training with linguistically informed masking influence the representations of patent language? RQ2 言語情報マスキングによるドメイン適応型事前学習は特許言語の表現にどのように影響するか。 0.68
For BERT and SciBERT we compare domain-adaptive pre-training with and without linguistically informed masking with shifting the masking to 100% and to 75% to the noun chunks. BERT と SciBERT では、ドメイン適応型事前学習と言語情報のないマスキングを比較し、マスキングを100%、名詞チャンクを75%にシフトさせる。 0.70
In order to evaluate the effectiveness of the different representations for patent language, we evaluate and compare them for the two independent downstream tasks of IPC classification and similarity matching. 特許言語における異なる表現の有効性を評価するため、IPC分類と類似性マッチングの2つの独立した下流タスクについて評価・比較を行った。 0.76
Here we find that linguistically informed masking does improve the overall downstream performance, thus we reason that shifting the masking probabilities towards the noun chunks improves the representations of patent language. ここでは,言語的に認知されたマスキングが全体のダウンストリーム性能を向上させることが判明し,マスキング確率を名詞チャンクにシフトさせることで,特許言語の表現が向上すると考えられる。 0.62
Furthermore we investigate the degree of shifting the masking probability 𝑝𝑛𝑐 towards the noun chunks. さらに,マスキング確率pncを名詞チャンクにシフトする程度について検討した。 0.67
Our contributions are as follows: • We investigate domain adaptive pre-training of a general purpose language model (BERT) and of a scientific language model (SciBERT) for representing patent language and find that SciBERT is more suitable to represent patent language. 我々は,特許言語を表現するための汎用言語モデル(BERT)と科学言語モデル(SciBERT)のドメイン適応事前学習を調査し,SciBERTが特許言語を表現するのに適していることを確認する。 0.75
We investigate two factors for that: the language pre-training corpus as well as the tokenization • We propose linguistically informed masking for domainadaptive pre-training for patent language and demonstrate effectiveness gains with representations of patent language learned with linguistically informed masking for IPC classification and similarity matching • We make the source code as well as the domain-adapted 言語事前学習コーパスとトークン化 • ドメイン適応型事前学習のための言語情報マスキングを提案し、IPC分類のための言語情報マスキングと類似性マッチングのための言語情報マスキングを用いて学習した特許言語の表現と有効性を示す。
訳抜け防止モード: 言語事前学習コーパスとトークン化 (<特集>ドメイン適応型事前学習のための言語情報マスキング) IPC分類と類似性マッチングのための言語情報マスキングを用いて学習した特許言語の表現による有効性向上を実証する。 私たちは、ソースコードとドメインを適応させます。
0.77
pre-trained language models available at https://github.com/s ophiaalthammer/paten t-lim pre-trained language model available at https://github.com/s ophiaalthammer/paten t-lim 0.50
2 RELATED WORK Representation learning. 2関連作業 表現学習。 0.68
Learning general word representations continues to be an active research area, from word-level representations [29, 34] up to pretrained language models [7, 14, 35, 37]. 一般語表現の学習は、単語レベル表現[29, 34]から事前訓練された言語モデル[7, 14, 35, 37]まで、引き続き活発な研究領域である。 0.81
In particular the BERT language model [7] delivers generally applicable, syntactically and semantically informative embeddings which have advanced the state-of-the-art performance on a variety of different downstream tasks. 特にBERT言語モデル [7] は、様々なダウンストリームタスクにおける最先端のパフォーマンスを進歩させた、一般的に、構文的に、意味的に、意味的に情報的な埋め込みを提供します。 0.47
The extensive and varied further research results based on the BERT model [15, 19, 25, 40] show the generality and flexibility of the representations. BERTモデル [15, 19, 25 40] に基づく広範かつ多様な研究結果は,表現の汎用性と柔軟性を示している。 0.72
Sun et al [40? ] sun et al [40? 0.60
use entitylevel and phrase-level masking to achieve state-of-the-art results on Chinese. エンティティレベルとフレーズレベルのマスキングを使用して、中国語の最先端の結果を達成する。 0.49
Joshi et al [15] explore the effects of different static masking schemes for the BERT pre-training and find that random span masking is the best for learning general-purpose language. Joshi氏らは[15]、BERT事前学習における異なる静的マスキングスキームの効果を調査し、ランダムスパンマスキングが汎用言語を学ぶのに最適なことを発見した。 0.62
Domain adaptation of language models. 言語モデルのドメイン適応。 0.73
There is a suite of BERTlike domain-specific models which have been fine tuned for, e g , the BERTライクなドメイン特化モデルのセットがあり、例えば、そのモデルのために微調整されている。 0.60
social media [12], biomedical [21], clinical [1], legal [5] or scientific domains [4]. ソーシャルメディア[12], バイオメディカル[21], 臨床[1], 法律[5], 科学領域[4] 0.62
They show that the domain adaptive fine-tuning on the same language modelling tasks already leads to more informative representations of the respective domain and therefore to better performance on downstream tasks. 彼らは、同じ言語モデリングタスクのドメイン適応型微調整が、各ドメインのより情報的な表現をもたらし、従って下流タスクのパフォーマンスを向上させることを示しています。 0.69
Beltagy et al [4] demonstrate by training a BERT language model from scratch on scientific language and with a trained, scientific vocabulary that the suitability of the tokenization to the domain language is an important parameter for good representations of that language. Beltagy氏ら[4]は、科学的な言語をスクラッチからトレーニングし、そして訓練された科学的語彙で、ドメイン言語へのトークン化の適性が、その言語の優れた表現にとって重要なパラメータであることを示す。 0.74
However Gururangan et al [11] demonstrate that domain-adaptive pre-training is crucial for specific domains and for the performance on downstream tasks. しかしgururangan氏ら[11]は、ドメイン適応型事前トレーニングが特定のドメインと下流タスクのパフォーマンスにとって重要であることを実証している。 0.66
Hofstätter et al [13] demonstrate the use of retrofitting [10] for Word2Vec [29] patent embeddings for patent retrieval. Hofstätter et al [13] は、Word2Vec [29] 特許の埋め込みを特許取得に使用することを実証している。 0.72
Natural language processing in the patent domain. 特許領域における自然言語処理。 0.80
The use of machine learning and deep learning methods for patent analysis is a vibrant research area [3, 17] with application in technology forecasting, patent retrieval [2, 36], patent text generation [22] or litigation analysis. 特許分析における機械学習およびディープラーニング手法の利用は,技術予測,特許検索[2,36],特許テキスト生成[22],訴訟解析などに適用可能な,活発な研究領域[3,17]である。 0.82
There has been much research on the patent domain language which shows that the sections in patents constitute different genres depending on their legal or technical purpose [39]. 特許ドメイン言語に関する多くの研究があり、特許のセクションは、法的、技術的目的に応じて異なるジャンルを構成することが示されている[39]。
訳抜け防止モード: 特許ドメイン言語に関する多くの研究がある。 特許のセクションは,その法的又は技術的目的に応じて異なるジャンルを構成することを示す[39]
0.84
Furthermore the vocabulary of patent language is highly specific [26, 32] and contains special multi-word terms which are novel constructions from commonly used words and which are characteristic of patent language, as in Figure 1 [8, 43]. さらに、特許言語の語彙は、[26, 32]に非常に特有であり、図1[8, 43]のように、一般的に使用される単語からの新規な構成であり特許言語の特徴である特別な多語単語を含む。 0.79
The citations of patents are a frequent subject of research and they are used to explore the similarity of cited patents [24, 27, 38]. 特許の引用は、しばしば研究の対象となり、引用された特許 [24, 27, 38] の類似性を調べるために使用される。 0.79
The classification of patents with the IPC tags, which determine a hierarchical topic category of the patent, is a well known downstream task [20, 23]. 特許の階層的なトピックカテゴリを決定するipcタグによる特許の分類は、よく知られたダウンストリームタスク[20, 23]である。 0.77
The manual curation of patent metadata by the patent offices provides abundant labelled data for NLP research, however the tasks of IPC classification and similarity matching can not yet be considered solved, and thus are sufficiently difficult tasks for comparing the capabilities of representations for patent language. 特許庁による特許メタデータのマニュアルキュレーションは、NLP研究に豊富なラベル付きデータを提供するが、IPC分類と類似性マッチングのタスクはまだ解決できないため、特許言語の表現能力を比較するのに十分な困難である。 0.77
3 LINGUISTICALLY INFORMED MASKING Here we motivate the domain adaptive pre-training method of linguistically informed masking for learning patent representations and we define and introduce linguistically informed masking for BERT-like language models. 3言語的インフォームドマスキング ここでは,特許表現学習のための言語情報マスキングのドメイン適応型事前学習手法を動機付け,BERTに似た言語モデルのための言語情報マスキングを定義し,導入する。 0.67
3.1 Linguistic motivation Our goal is to learn better language representations for the patent domain. 3.1 言語モチベーション 私たちの目標は、特許ドメインのより良い言語表現を学ぶことです。
訳抜け防止モード: 3.1 言語モチベーション 目標は 特許ドメインのための より良い言語表現を学べます
0.83
As the language models which are the subject of our research are pre-trained on a different language domain, we aim to quantify the difference between the pre-training language and the target language, here patent language, in terms of their linguistic patterns. 我々の研究対象である言語モデルは、異なる言語領域で事前学習されているので、これらの言語パターンの観点から、事前学習言語と対象言語の違いを定量化することを目的としている。 0.78
Therefore we examine the general-purpose and scientific language on which BERT and SciBERT are pre-trained, respectively, as these models will serve as pre-trained language models which we adapt to patent language. したがって、bert と scibert がそれぞれ事前学習されている汎用言語と科学的言語について検討し、これらのモデルは、我々が特許言語に適応する事前学習言語モデルとして機能する。
訳抜け防止モード: そこで,本研究では, BERT と SciBERT を事前訓練した汎用言語と科学言語について検討する。 これらのモデルは、特許言語に適応する事前訓練された言語モデルとして機能する。
0.65
One of the main distinct characteristics of patent language is the use of constructed multi-word terms [32] such as “a disk-shaped suspension-type insulator” or “a non-transitory computer-readable medium”. 特許言語の主な特徴の1つは、"ディスク型サスペンション型絶縁体"や"非トランザクショナルコンピュータ可読媒体"など、構築されたマルチワード語 [32] の使用である。 0.76
These multi-word terms are contained in noun chunks, therefore we analyze the length and appearance of noun chunks in patent language compared to general-purpose and scientific これらの多語単語は名詞チャンクに含まれるため、汎用的・科学的に比較して、特許言語における名詞チャンクの長さと外観を分析する。 0.56
英語(論文から抽出)日本語訳スコア
Linguistically Informed Masking for Representation Learning in the Patent Domain 特許領域における表現学習のための言語情報マスキング 0.76
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
𝑝(𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 0) 𝑝(𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 0) 0.85
Wikipedia USPTO13M Wikipedia USPTO13M 0.71
0.499 0.501 0.499 0.501 0.50
0.507 0.493 0.507 0.493 0.50
Table 1: Probability that a given token 𝑘 in sequence 𝑗 is in a noun chunk for two datasets 表1:シーケンスjの与えられたトークンkが2つのデータセットの名詞チャンクにある確率 0.75
Figure 2: Distribution of noun chunk length in patent and Semantic Scholar abstracts and Wikipedia: patent language contains on average longer noun chunks with domain specific information signals 図2: 特許および意味学者の要約とwikipediaにおける名詞チャンクの長さの分布: 特許言語は、ドメイン固有の情報信号を含む平均的な名詞チャンクを含む 0.71
language. As representatives from each language domain we choose a sample of 600 articles from the Wikitext raw training dataset [28] and 1, 000 abstracts from the Semantic Scholar research corpus [? 言語 各言語領域の代表として、Wikitextの生のトレーニングデータセット[28]から600記事のサンプルを選び、Semantic Scholar Research Corpusから1,000の抽象化を選択します [in Japanese] 0.59
], which correspond to the pre-training data of BERT and SciBERT. これはBERTとSciBERTの事前学習データに対応する。 0.48
We identify the noun chunks using the Spacy natural language toolkit1 after removing tabs and multiple whitespaces as well as mathematical formulas from the raw text. テキストからタブや複数の空白や数式を取り除いた後に,スペイシー自然言語ツールキット1を用いて名詞のチャンクを同定する。 0.70
We remove noun chunks which are longer than 10 words as we see that these cases are enumerations when analyzing the noun chunks. これらの例が名詞チャンクを分析する際の列挙であることを示すため、名詞チャンクを10語以上削除する。 0.64
Figure 2 shows the distribution of noun chunk length of the different language domains, with the average length in dashed vertical lines. 図2は、各言語領域の名詞チャンク長の分布を示し、平均長は縦線で区切られている。 0.69
We observe a significant difference of the distribution of the noun chunk length in the patent language (mean: 2.73; sd: 1.27) compared to general-purpose (2.21;1.25) or scientific language (2.37;1.36) as there are more long noun chunks in patent language (K-S test: 𝑝 < .001 for all three language combinations). 特許言語における名詞チャンクの長さ(平均2.73; sd: 1.27)と汎用(2.21;1.25)や科学言語(2.37;1.36)との分布は、より長い名詞チャンク(K-S test: p < .001)により大きく異なる。 0.72
Therefore we conclude that patent language contains longer noun chunks than general-purpose or scientific language and the longer noun chunks in patent language are constructed using novel combinations of common nouns. したがって、特許言語は汎用言語や科学言語よりも長い名詞チャンクを含み、特許言語の長い名詞チャンクは共通名詞の新規な組み合わせを用いて構築される。 0.73
Consequently the BERT and SciBERT models are not trained to generate optimal representations of these noun chunks. したがって、BERTとSciBERTモデルはこれらの名詞チャンクの最適な表現を生成するために訓練されない。 0.57
Considering that the noun chunks contain domain-specific information signals in the form of multi-word-terms and technical terms [32], this motivates us to focus on learning the linguistic peculiarities of the patent domain contained in the noun chunks explicitly during domain-adaptative fine-tuning. 名詞チャンクが複数単語の用語と技術用語[32]の形でドメイン固有の情報信号を含むことを考慮すれば、ドメイン適応的微調整の間、名詞チャンクに含まれる特許ドメインの言語的特異性を学ぶことに注力する動機付けとなる。 0.69
Hence we propose linguistically informed masking for domain-adaptive fine-tuning of BERT-like language models. そこで我々は,bert様言語モデルのドメイン適応型微調整のための言語的インフォームドマスキングを提案する。 0.48
1https://github.com/ explosion/spaCy/ 1https://github.com/ explosion/spaCy/ 0.34
3.2 Masked Language Modelling (MLM) The BERT language model [7] is designed to learn bidirectional representations for language and is jointly pre-trained on the tasks of masked language modelling (MLM) and next sentence prediction (NSP), with two different additional layers based on the output of its transformer network [42]. 3.2 Masked Language Modelling (MLM) The BERT Language Model [7] is designed to learn bidirectional representations for language and are jointly pre-trained on the task of masked language modelling (MLM) and next sentence prediction (NSP) with two different additional layer based on the output of its transformer network [42]。 0.86
In the next sentence prediction task the model is given two sentences of a text and it has to predict if the second sentence is the next sentence in the original text. 次の文予測タスクでは、モデルにテキストの2つの文が与えられ、2番目の文が原文の次の文であるかどうかを予測する必要がある。 0.66
In masked language modelling 15% of the tokens in each sequence are masked out and the model predicts the true token, which is inspired by the Cloze task [41]. マスクされた言語モデルでは、各シーケンスのトークンの15%がマスクアウトされ、モデルはクローゼタスク[41]にインスパイアされた真のトークンを予測する。 0.70
Solving these pre-training tasks requires the representations to capture syntactic and semantic characteristics of the language and therefore this task enables the language model to learn linguistic representations. これらの事前学習タスクを解決するには、言語の構文的および意味的特性をキャプチャする表現が必要である。 0.63
In this section we describe the novel domain-adaptive pre-training method of linguistically informed masking (LIM) for BERT-like language models, which adapts the MLM task in order to focus the model towards learning specific linguistic information of the domain. 本稿では、bert様言語モデルにおける言語情報マスキング(lim)の新たなドメイン適応事前学習法について述べる。
訳抜け防止モード: 本稿では,言語モデルのようなBERTのための言語情報マスキング(LIM)の適応前訓練手法について述べる。 ドメインの特定の言語情報を学ぶことに集中するために、MDMタスクを適用する。
0.77
We first give a formal definition of the MLM task. まず、MLMタスクの正式な定義を示す。 0.60
Let 𝐵 be the number of training sequences consisting of encoded sentences in one training batch and let 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 be the number of masked positions where the original token needs to be predicted. B を1つのトレーニングバッチにエンコードされた文からなるトレーニングシーケンスの数とし、max_pred を元のトークンを予測する必要があるマスキング位置の数とする。 0.82
Then the loss 𝐿 of the MLM task is defined as cross-entropy between the predictions 𝑝_𝑚𝑙𝑚𝑖 𝑗 and the label 𝑙_𝑚𝑙𝑚𝑖 𝑗 as そして、MLMタスクの損失Lを予測 p_mlmi j とラベル l_mlmi j との相互エントロピーとして定義する。 0.74
𝐵 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 𝐵 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 0.72
𝑗=1 𝑖=1 𝐿 := 𝑗=1 𝑖=1 𝐿 := 0.68
−(log(𝑝_𝑚𝑙𝑚𝑖 𝑗)𝑇 𝑙_𝑚𝑙𝑚𝑖 𝑗)𝑤𝑖 𝑗 -(log(p_mlmi j)T l_mlmi j)wi j 0.93
𝐵 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 𝐵 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 0.72
𝑗=1 𝑖=1 𝑤𝑖 𝑗 𝑗=1 𝑖=1 𝑤𝑖 𝑗 0.68
for each position 𝑖 and for each sequence 𝑗. 𝑤𝑖 𝑗 is a weight for a padding mechanism in case fewer than 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 positions are masked in the sequence. それぞれの位置 i と各シーケンス j. wi j について、max_pred 以下の位置がシーケンス中にマスクされている場合、パディング機構の重みである。 0.66
The predictions 𝑝_𝑚𝑙𝑚𝑖 𝑗 ∈ R𝑉 are a probability distribution over the whole vocabulary with size 𝑉 and the label is a one-hot encoding of the masked token. 予測 p_mlmi j ∈ RV は、サイズ V の語彙全体の確率分布であり、ラベルはマスク付きトークンの1ホット符号化である。 0.80
The predictions 𝑝_𝑚𝑙𝑚𝑖 𝑗 are the output of the MLM layer and are defined as 予測 p_mlmi j は、MLM層の出力であり、定義されている。
訳抜け防止モード: 予測p_mlmi jはMLM層の出力である 定義されています
0.83
𝑝_𝑚𝑙𝑚𝑖 𝑗 := 𝑠𝑜 𝑓 𝑡𝑚𝑎𝑥(𝑊𝑚𝑙𝑚 𝑋𝑖 𝑗 + 𝑏𝑚𝑙𝑚) 𝑝_𝑚𝑙𝑚𝑖 𝑗 := 𝑠𝑜 𝑓 𝑡𝑚𝑎𝑥(𝑊𝑚𝑙𝑚 𝑋𝑖 𝑗 + 𝑏𝑚𝑙𝑚) 0.96
where 𝑊𝑚𝑙𝑚 ∈ R𝑉×𝐻 and 𝑏𝑚𝑙𝑚 ∈ R𝑉 are the weights and biases of the MLM output layer and 𝑋𝑖 𝑗 ∈ R𝐻 is the final hidden vector of the masked position 𝑖 with dimensionality 𝐻. ここで Wmlm ∈ RV×H と bmlm ∈ RV は MLM 出力層の重みとバイアスであり、Xi j ∈ RH は次元 H を持つマスクされた位置 i の最終隠れベクトルである。 0.87
For a sequence 𝑗 we get the final hidden vectors of the masked positions 𝑋 𝑗 ∈ R𝐻×𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 with 列 j に対して、マスク位置 xj ∈ rh×max_pred の最終的な隠れベクトルを得る。 0.81
𝑋 𝑗 = 𝑇𝑗 𝑀𝑗 ∀𝑗 = 1, .., 𝐵. 𝑋 𝑗 = 𝑇𝑗 𝑀𝑗 ∀𝑗 = 1, .., 𝐵. 0.85
Here 𝑇𝑗 ∈ R𝐻×𝑆 are the final outputs of sequence 𝑗 of the BERT model with the input sequence length 𝑆 and the masking matrix 𝑀𝑗 ∈ {0, 1}𝑆×𝑚𝑎𝑥_𝑝𝑟𝑒𝑑, which shows the masked positions. ここで、Tj ∈ RH×S は入力列長さ S とマスキング行列 Mj ∈ {0, 1}S×max_pred を持つBERT モデルの列 j の最終出力であり、マスキング位置を示す。 0.75
The 0.31
英語(論文から抽出)日本語訳スコア
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
Althammer, et al Althammer, et al 0.85
masking matrix 𝑀 𝑗 for a sequence 𝑗 consists of one-hot vectors for each masked position 𝑛 with 𝑛 = 1, .., 𝑚𝑎𝑥_𝑝𝑟𝑒𝑑: 列 j のマスキング行列 M j は、n = 1, ., max_pred: の各マスキング位置 n の1ホットベクトルからなる。 0.84
𝑀 𝑗 𝑘𝑛 := if token 𝑘 is masked in 𝑛th position otherwise. 𝑀 𝑗 𝑘𝑛 := トークンkがn番目の位置にある場合 0.74
𝑝( ˆ𝑀 𝑗 𝑘𝑛 = 1|𝑦 𝑗𝑘 = 1) = 𝑝( ˆ𝑀 𝑗 𝑘𝑛 = 1) ∗ 𝑝𝑛𝑐 𝑝(𝑦 𝑗𝑘 = 1) 𝑝( ˆ𝑀 𝑗 𝑘𝑛 = 1|𝑦 𝑗𝑘 = 1) = 𝑝( ˆ𝑀 𝑗 𝑘𝑛 = 1) ∗ 𝑝𝑛𝑐 𝑝(𝑦 𝑗𝑘 = 1) 0.88
= = 𝑝( ˆ𝑀 𝑗 = = 𝑝( ˆ𝑀 𝑗 0.85
𝑘𝑛 = 1 ∧ 𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 1) 0.15 ∗ 0.75 𝑘𝑛 = 1 ∧ 𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 1) 0.15 ∗ 0.75 0.98
= 0.22 0.507 = 0.22 0.507 0.65
This shows how we influence the probability of masking a token 𝑘, which is in a noun chunk, with the parameter 𝑝𝑛𝑐. これは、パラメータ pnc を用いて、名詞チャンクにあるトークン k をマスキングする確率にどのように影響するかを示す。 0.76
With 𝑝𝑛𝑐 = 0.507 LIM reduces to MLM as a special case. pnc = 0.507 LIM の場合、特殊ケースとして MLM に還元される。 0.66
In summary, the LIM parameter 𝑝𝑛𝑐 controls the probability of masking noun chunk tokens. 要約すると、LIMパラメータpncは名詞チャンクトークンをマスキングする確率を制御する。 0.74
4 EXPERIMENT DESIGN Our experiments investigate which BERT-like pre-trained language model is best suited to represent patent language (RQ1) as well as the influence of domain-adaptive pre-training with linguistically informed masking for the representations of patent language (RQ2). 4 実験設計 bertライクな事前学習言語モデルが特許言語(rq1)表現に最も適しているか,また特許言語(rq2)表現に対する言語情報マスキングを用いたドメイン適応事前学習の影響について検討した。 0.72
To evaluate these questions we do domain-adaptive pre-training on patent language with BERT and SciBERT with either the MLM or LIM pre-training method. これらの質問を評価するために、MBM または LIM の事前学習法を用いて、BERT と SciBERT による特許言語によるドメイン適応型事前学習を行う。
訳抜け防止モード: これらの疑問を評価するために MLM または LIM のトレーニングメソッドで BERT と SciBERT によるドメイン-適応プレ- 特許言語のトレーニングを行います。
0.69
We compare the vanilla model without domain-adaptive pre-training, the MLM and LIM domain-adaptive pre-training for BERT and SciBERT for representing patent language. ドメイン適応型事前学習のないバニラモデルと、特許言語を表現するためにBERTとSciBERTのMLMおよびLIMドメイン適応型事前学習を比較した。 0.59
To assess the quality of the resulting representations we evaluate the performance of the representations for the two independent, patent-related downstream tasks of IPC classification and similarity matching.2 得られた表現の質を評価するため、IPC分類と類似性マッチングの2つの独立特許関連下流タスクの表現性能を評価する。 0.77
4.1 Data We leverage the patent corpus from the Google Patents Public Datasets 3 on BigQuery with the query in Appendix A.1. 4.1 bigquery上のgoogle patent public datasets 3のパテントコーパスを利用しており、クエリはappendix a.1です。 0.74
The corpus, which we will refer to as USPTO13M, consists of 13 million granted utility patents in English with title, abstract, claims and description. USPTO13Mと呼ばれるこのコーパスは、英語で1300万件の特許があり、タイトル、要約、クレーム、説明がある。
訳抜け防止モード: コーパスはUSPTO13Mと呼ばれます。 英語で付与された1300万の実用特許から成り、タイトル、要約、クレーム、説明がある。
0.63
The title contains on average 8 words, the abstract 112 words, the claims 1067 and the descriptions 9539 words. タイトルには平均8語、抽象語112語、主張語1067語、記述語9539語が含まれている。 0.68
We also retrieve metadata like the filing date and the IPC tags, which are a consistent, hierarchical topic categorization of the patents and which are assigned by patent examiners [44]. また,出願日やipcタグなどのメタデータを検索し,特許の一貫性のある階層的トピック分類を行い,特許審査官[44]が割り当てる。 0.70
Our corpus contains 738 different IPC tags on the subclass level of the tags. 我々のコーパスは、タグのサブクラスレベルに738の異なるIPCタグを含む。 0.71
The patents also contain citations referring to other previously published patents which the current patent is related to. 特許は、また、現在特許が関連する他の公表された特許を参照する引用も含んでいる。 0.64
Of primary importance are category “X” citations, which encode close technical relatedness. 主な重要事項は "x" の引用であり、これは技術的に密接に関連している。 0.56
Category “X” is applicable “where a document is such that when taken alone, a claimed invention cannot be considered novel” [9]. 分類「X」は、「文書が単独で取られる場合には、請求項の発明は新規とはみなせない」と適用することができる。 0.74
We will use the citations of a patents as similarity indication of two patents. 特許の引用を2つの特許の類似性表示として使用する。 0.74
4.2 Domain adaptive pre-training on patent 4.2 ドメイン適応型特許事前訓練 0.72
language Following the definition of Pan and Yang [33] for transfer learning, we define the domain adaptive pre-training from the source domain Wikipedia or the source domain of scientific language with the source tasks of MLM and NSP to the target domain of patent language with the target task of MLM or LIM and NSP. 言語 転写学習のためのPanとYang[33]の定義に従い、MLMのソースタスクとNSPのソースタスクと、MLMまたはLIMおよびNSPのターゲットタスクとを対象とする特許言語のターゲットドメインとを、ソースドメインウィキペディアまたは科学言語のソースドメインから適応的な事前学習を定義する。 0.81
Here we (cid:40)1, ここでは (cid:40)1, 0.81
0, (cid:40)1, 0, (cid:40)1, 0.87
0, 3.3 Linguistically informed masking 0, 3.3 言語情報マスキング 0.78
pre-training method (LIM) With the linguistically informed masking method we aim to give the model the flexibility to focus on learning specific linguistic characteristics of the language, namely the noun chunks in the patent domain. 予習方法(lim) 言語学的にインフォームドされたマスキング手法を用いて,特許領域の名詞チャンクという言語特性を学習する柔軟性をモデルに与えることを目的としている。 0.70
Therefore we propose the linguistically informed masking method where 𝑝𝑛𝑐 ∈ [0, 1] of the masked tokens belong to a noun chunk and 1 − 𝑝𝑛𝑐 to a non-noun chunk. そこで, マスク付きトークンのpnc ∈ [0, 1] が名詞チャンク, 1 − pnc が名詞チャンクに属する言語情報マスキング手法を提案する。 0.66
We realize this by modifying the masking matrix 𝑀 𝑗 ∈ {0, 1}𝑆×𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 of sequence 𝑗 depending on 我々は、列 j のマスキング行列 M j ∈ {0, 1}S×max_pred を変更することでこれを実現する。 0.75
𝑦 𝑗𝑘 := if token 𝑘 belongs to a noun chunk otherwise 𝑦 𝑗𝑘 := token k が名詞チャンクに属する場合 0.73
which indicates whether token 𝑘 of sequence 𝑗 belongs to a noun chunk or not. これは、シーケンス j のトークン k が名詞チャンクに属するかどうかを示す。 0.74
The LIM masking matrix ˆ𝑀 𝑗 ∈ {0, 1}𝑆×𝑚𝑎𝑥_𝑝𝑟𝑒𝑑 is constructed so that it contains with a probability of 𝑝𝑛𝑐 only masked tokens 𝑘 for which 𝑦 𝑗𝑘 = 1, and with a probability of 1 − 𝑝𝑛𝑐 only masked tokens for which 𝑦 𝑗𝑘 = 0. lim マスキング行列 lim j ∈ {0, 1}s×max_pred は、pnc の確率が y jk = 1 のマスキングトークン k と 1 − pnc の確率が y jk = 0 のマスキングトークンのみを含むように構成される。
訳抜け防止モード: LIMマスキング行列 >M j ∈ { 0, 1}S×max_pred は、y jk = 1 である pnc のみマスキングされたトークン k の確率を含むように構成される。 1 − pnc の確率は y jk = 0 のトークンのみをマスクする。
0.80
With this construction, in 𝑝𝑛𝑐 of the sequences only tokens that belong to a noun chunk are masked, and in 1 − 𝑝𝑛𝑐 of the sequences only tokens of non-noun chunks are masked. この構成では、シーケンスの pnc では、名詞チャンクに属するトークンのみがマスクされ、シーケンスの 1 − pnc では、非名詞チャンクのトークンのみがマスクされている。 0.69
In order to examine the differences of the pre-training methods of MLM and LIM we analyze the overall noun chunk distribution for tokens in the Wikitext raw dataset [28], which corresponds to the pre-training domain of the BERT model, and the USPTO13M patent dataset, which is shown in Table 1. MLMとLIMの事前学習方法の違いを調べるために,BERTモデルの事前学習ドメインに対応するWikitext raw data[28]と,表1に示すUSPTO13M特許データセットにおいて,トークンの全体名詞チャンク分布を分析した。 0.69
Because masking in MLM is random and around half of the tokens in both datasets are part of noun chunks, around half of the masked positions will belong to a noun chunk and half will not. MLMのマスキングはランダムであり、両方のデータセットのトークンの約半分は名詞チャンクの一部であるため、マスキングされた位置の約半分は名詞チャンクに属し、半分は名詞チャンクに属しない。 0.68
This means that with MLM fine-tuning on patent documents, the influence of tokens in noun chunks would be approximately equally weighted, despite the importance of noun chunks in patent language. これは、MLMが特許文書を微調整する場合、名詞チャンクにおけるトークンの影響は、特許言語における名詞チャンクの重要性にもかかわらず、ほぼ等しく重み付けされることを意味する。 0.61
With LIM however we can control the influence of noun chunks via the parameter 𝑝𝑛𝑐. しかし、LIMではパラメータpncを介して名詞チャンクの影響を制御することができる。 0.69
To increase this influence the noun chunk masking probability must be 𝑝𝑛𝑐 > 𝑝(𝑦 𝑗𝑘 = 1), which means that we choose 𝑝𝑛𝑐 > 0.507 for the patent domain. この影響を増大させるためには、名詞チャンクマスキング確率は pnc > p(y jk = 1) でなければならない。
訳抜け防止モード: この影響を高めるために、名詞チャンクマスキング確率は pnc > p(y jk = 1 ) でなければならない。 つまり、特許ドメインとして pnc > 0.507 を選択します。
0.71
With 𝑝𝑛𝑐 = 0.507 LIM reduces to MLM as a special case, as the probability of masking out a noun chunk in LIM is then the same as in MLM. pnc = 0.507 LIM の場合、LIM の名詞チャンクをマスクする確率は MLM と同じであるため、特別な場合として MLM に還元される。 0.86
We examine the impact of LIM compared to MLM with the choice of 𝑝𝑛𝑐 = 0.75. pnc = 0.75 の選択で MLM と比較して LIM の影響を検討した。 0.73
The probability of masking the token 𝑘, which is in a noun chunk in sequence 𝑗, with the MLM task in the patent domain is シークエンス j の名詞チャンクにあるトークン k を、特許領域の MLM タスクでマスクする確率は、 0.53
𝑝(𝑀 𝑗 𝑘𝑛 = 1|𝑦 𝑗𝑘 = 1) = 𝑝(𝑀 𝑗 𝑘𝑛 = 1|𝑦 𝑗𝑘 = 1) = 0.91
𝑝(𝑀 𝑗 𝑘𝑛 = 1 ∧ 𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 1) 𝑝(𝑀 𝑗 𝑘𝑛 = 1 ∧ 𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 1) 0.85
𝑝(𝑀 𝑗 𝑘𝑛 = 1) ∗ 𝑝(𝑦 𝑗𝑘 = 1) 𝑝(𝑀 𝑗 𝑘𝑛 = 1) ∗ 𝑝(𝑦 𝑗𝑘 = 1) 0.85
𝑝(𝑦 𝑗𝑘 = 1) 𝑝(𝑦 𝑗𝑘 = 1) 0.85
= = 0.15 as the masking is independent of the noun chunks. = = 0.15 マスキングは名詞のチャンクから独立している。 0.73
For LIM the probability of masking a noun chunk token is LIM の場合 名詞チャンクトークンをマスキングする確率は 0.69
2We show the tasks’ independence in Appendix A.3. 2 Appendix A.3におけるタスクの独立性を示す。 0.68
3https://console.clo ud.google.com/bigque ry?p=patents-public-data 3https://console.clo ud.google.com/bigque ry?p=patents-public-data 0.31
英語(論文から抽出)日本語訳スコア
Linguistically Informed Masking for Representation Learning in the Patent Domain 特許領域における表現学習のための言語情報マスキング 0.76
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
take the unsupervised domain-adaptive pre-training dataset as the title, abstract, claims and descriptions of 320𝑘 patent documents from the USPTO13M corpus containing 3.3 billion words, similar to the size of the BERT and SciBERT pre-training datasets. 教師なしのドメイン適応型事前トレーニングデータセットを、BERTとSciBERTの事前トレーニングデータセットのサイズと同様、330億ワードを含むUSPTO13Mコーパスから320kの特許文書のタイトル、抽象化、クレーム、記述とみなす。 0.55
We remove tabs, multiple whitespaces and mathematical formulas. タブ、複数の空白、数学的公式を削除します。 0.61
We choose the 𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸 cased model with 110𝑀 parameters as initialisation to match the size of the SciBERT model. 我々は、SciBERTモデルのサイズに合わせて、110MパラメータのBERTBASEケースドモデルを初期化として選択する。 0.69
As the learning rate is a sensitive parameter that is data- and task-specific, we perform a grid search over 1 ∗ 10−4, 5 ∗ 10−5, 2 ∗ 10−5, 1 ∗ 10−5 as learning rate candidates following Beltagy et al [4] and Alsentzer et al [1] and choose the optimal learning rate for each configuration. 学習速度はデータ・タスク固有パラメータであるので,Beltagy et al [4] と Alsentzer et al [1] に続く学習率候補として 1 ∗ 10−4, 5 ∗ 10−5, 2 ∗ 10−5, 1 ∗ 10−5, 1 ∗ 10−5 の格子探索を行い,各構成に対して最適な学習率を選択する。 0.76
We choose the same hyperparameters as were used in the pre-training phase for each model. 各モデルの事前学習フェーズで使用したのと同じハイパーパラメータを選択する。 0.72
The hyperparameters, including learning rates, can be found in Appendix A.2. 学習率を含むハイパーパラメータは、Appendix A.2で見ることができる。 0.75
We carry out domain adaptive pre-training of the BERT and SciBERT model for 100𝑘 steps following Lee et al [21], which equates to one epoch of the domain adaptive pre-training dataset. lee et al [21] に続く100k ステップに対して,bert と scibert モデルのドメイン適応前トレーニングを行い,ドメイン適応前トレーニングデータセットの1つのエポックに匹敵する。 0.63
For LIM domain adaptive pre-training we consider two values for our domain-dependent hyperparameter 𝑝𝑛𝑐 ∈ {0.75, 1.0} as our analysis in section 3.3 has shown that 𝑝𝑛𝑐 = 0.507 reduces to MLM pre-training and as we want to investigate the optimal weighting of LIM hyperparameter 𝑝𝑛𝑐. ドメイン依存型ハイパーパラメータ pnc ∈ {0.75, 1.0} に対する2つの値を考えると、3.3 では pnc = 0.507 が MLM 事前学習に還元され、LIM ハイパーパラメータ pnc の最適重み付けを検討できる。 0.68
4.3 Fine-tuning on patent-related downstream 4.3 特許関連下流の微調整 0.60
tasks Our goal is to compare the performances of the different representations on the downstream tasks rather than to maximise the absolute performances. タスク 私たちのゴールは、絶対的なパフォーマンスを最大化するのではなく、下流タスクにおける異なる表現のパフォーマンスを比較することです。 0.59
As two independent patent-related downstream tasks for evaluating the quality of the representations of patent language we choose IPC classification and similarity matching of two given patents. 2つの独立した特許関連ダウンストリームタスクとして、特許言語の表現の品質を評価するため、2つの特許のicp分類と類似性マッチングを選択する。 0.64
As baselines we choose the BERT and SciBERT vanilla models which are not domain adapted to the patent domain, as well as a convolutional neural network for sentence classification [16] based on word2vec representations [29]. ベースラインとして、特許ドメインに適合しない領域であるBERTとSciBERTバニラモデル、および word2vec 表現 [29] に基づく文分類 [16] のための畳み込みニューラルネットワークを選択する。 0.68
Following the definition of Pan and Yang [33] the vanilla BERT model is transferred from the source domain Wikipedia and the vanilla SciBERT model is transferred from the scientific source domain, to the patent domain with the target tasks of IPC classification or similarity matching. PanとYangの定義[33]に従って、バニラBERTモデルをソースドメインWikipediaから、バニラSciBERTモデルを科学ソースドメインからIPC分類または類似性マッチングの目標タスクを含む特許ドメインに転送する。 0.64
Therefore the transfer learning problem involves both a domain and a task shift. したがって、転送学習問題はドメインとタスクシフトの両方に関わる。 0.77
For the BERT model which is fine-tuned on the patent domain with the MLM task the transfer is defined as only a task adaptation from the source task of MLM or LIM and NSP to the target task of IPC classification or similarity matching on the same domain of patents. MLMタスクで特許ドメインに微調整されたBERTモデルは、MLMまたはLIMおよびNSPのソースタスクから、同一の特許ドメイン上のIPC分類または類似性マッチングのターゲットタスクへのタスク適応のみとして定義される。 0.71
The fine-tuning of the BERT LIM0.75 and the LIM1 configuration are defined analogously for the SciBERT-based models. BERT LIM0.75とLIM1の構成の微調整は、SciBERTベースのモデルと類似して定義される。 0.62
Overall we fine-tune and evaluate 8 different pre-trained models on the IPC classification and the similarity matching tasks. 全体として,ICC分類と類似性マッチングタスクに基づいて,8種類の事前学習モデルの微調整と評価を行った。 0.58
IPC classification. For the IPC classification we use a subset 4.3.1 of up to 480𝑘 labelled patent claims of the USPTO13M dataset for training, similar to Lee and Hsiang [20], and an test set of 150𝑘 patent claims, containing in total 738 different IPC [44] tags on the subclass level. IPC分類。 IPC分類では、トレーニング用のUSPTO13Mデータセットのラベル付き特許クレームの480kまでのサブセット4.3.1と、LeeとHsiang [20]と同様の150k特許クレームのテストセットを使用し、サブクラスレベルに合計738の異なるIPC[44]タグを含む。 0.78
We restrict our classification input to the claims as the input size of the model is limited and, as [20] have demonstrated, the text of the claims is sufficient to predict the IPC tags. モデルの入力サイズが制限され,[20]が示すように,請求項のテキストはIPCタグを予測するのに十分である。
訳抜け防止モード: モデルの入力サイズが制限されているため、分類入力をクレームに限定する。 そして[20]が示すように、請求書のテキストはIPCタグを予測するのに十分です。
0.66
The patents have 1.73 IPC tags on average. 特許には平均1.73のIPCタグがある。 0.66
As the document class label we use the single most frequent tag after truncating all tags to the subclass level. ドキュメントクラスラベルとして、すべてのタグをサブクラスレベルに切り換えた後、最も頻繁にタグを使用する。 0.72
We remove tabs, multiple whitespace and mathematical formulas before passing the text to the BERT model for fine-tuning. テキストをBERTモデルに渡す前に、タブ、複数の空白、数学的公式を取り除き、微調整を行う。 0.60
For the IPC classification fine-tuning we choose the same hyperparameters as in the domain adaptive pretraining except the learning rate. In the IPC classification fine-tuning, we choose the same hyperparameters as the domain Adaptive pretraining except the learning rate。 0.88
For the learning rate we perform a grid search and choose the same learning rate of 5 ∗ 10−5 for all configurations (see Appendix A.4). 学習率についてはグリッド検索を行い、すべての構成に対して5 ∗ 10−5の学習率を選択する(Appendix A.4参照)。 0.75
We fine-tune in total for 30𝑘 steps, which corresponds to one epoch for 480𝑘 labelled samples, and we evaluate the models every 10𝑘 steps. 480kのラベル付きサンプルに対して1つのエポックに対応する30kステップを合計で微調整し、10kステップごとにモデルを評価する。 0.62
In order to analyze the impact of the language representations for downstream tasks with smaller number of labelled training data, we finetune the models on a training dataset size of 160𝑘 and 320𝑘 and the whole 480𝑘 samples and analyze the performance compared to the baseline. ラベル付きトレーニングデータが少ないダウンストリームタスクにおける言語表現の影響を分析するために,160kおよび320kのトレーニングデータセットサイズと480kサンプルとでモデルを微調整し,ベースラインと比較して性能を解析した。 0.87
Detailed results for the different dataset sizes for the BERT model as well as for the SciBERT model can be found in Table 2. BERTモデルとSciBERTモデルの異なるデータセットサイズに関する詳細な結果は、 Table 2で見ることができる。 0.73
Here the baseline performance is compared to the MLM or LIM domain adapted BERT and SciBERT model. ここでは、ベースライン性能をMLMまたはLIMドメイン適応BERTおよびSciBERTモデルと比較する。 0.79
Similarity matching. For the similarity matching task we 4.3.2 retrieve pairs of patents which stand in an “X” citation relation, which we interpret as indicating similarity between the two documents. 類似性マッチング。 類似性マッチングタスクについては、4.3.2で「x」引用関係にある特許のペアを検索し、2つの文書間の類似性を示すものと解釈する。 0.79
We denote these pairs of patent which cite each other as positive pair. われわれはこの2つの特許の対を肯定的な対と表現している。 0.54
In order to fine-tune the models on similarity matching, we also need negative pairs of patent which do not stand in a citation relation. 類似性マッチングのモデルを微調整するためには、引用関係にない負の対の特許も必要である。 0.69
As the citations of a given patent do not include all possible true citable patents, but rather only those which the patent examiners choose, we must construct negative citation pairs. 所定の特許の引用は、可能なすべての真の暗号特許を含むのではなく、特許審査官が選択する特許のみを含むので、負の引用対を構築しなければならない。
訳抜け防止モード: 所定の特許の引用は、真に決定可能なすべての特許を含まない。 むしろ 特許審査官が選んだものだけが 負の引用対を作らなければならない
0.67
This construction is done as follows: To a given patent document, which comes from the positive citation pairs, we sample randomly a negative patent document from the positive patent pairs which stand in a citation relation with another patent document. この構成は以下の通りである: 正の引用対に由来する所定の特許文書に対して、別の特許文書と引用関係にある正の特許対から負の特許文書をランダムにサンプリングする。 0.71
If the pair turns out to be the same document, we drop it and also positive citations pairs are dropped. もしペアが同じドキュメントだと分かったら、それをドロップし、ポジティブな引用ペアもドロップされます。 0.67
We choose a training dataset size up of 12𝑘 citation pairs with 50.1% positive and 49.9% negative pairs represented by their claims. 1kの引用対から50.1%の正と49.9%の負のペアまでのトレーニングデータセットを選択した。 0.66
The test dataset contains 16, 500 pairs, 49.9% positive and 50.1% negative ones. テストデータセットは16,500対、49.9%が陽性、50.1%が陰性である。 0.64
We remove tabs, multiple whitespaces and mathematical formulas from the text before passing it to the BERT model. BERTモデルに渡す前に、テキストからタブ、複数の空白、数学的公式を削除します。 0.74
The grid search for the BERT vanilla model indicates that 2∗10−5 is the most suitable learning rate for fine-tuning on similarity matching and we choose this rate for all configurations (see Appendix A.5). BERTバニラモデルのグリッドサーチは、2∗10−5が類似性マッチングを微調整するのに最も適した学習率であり、全ての構成に対してこのレートを選択することを示している(Appendix A.5参照)。 0.65
In order to analyze the impact of the language representations for downstream tasks with smaller number of labelled training data, we finetune the different configurations for one epoch on a training dataset size of 2𝑘, 8𝑘 and 12𝑘 samples and analyze the performance compared to the baseline. ラベル付きトレーニングデータの少ないダウンストリームタスクに対する言語表現の影響を分析するために,2k,8k,1kのトレーニングデータセットサイズに対して,1つのエポックの異なる構成を微調整し,ベースラインと比較して性能を解析した。 0.83
The results of the evaluation for the similarity matching are provided in Table 3 for the BERT-based and for the SciBERT-based models. 類似性マッチングの評価結果は、BERTベースのテーブル3とSciBERTベースのモデルに対して提供される。 0.71
5 RESULTS In the following we examine the downstream task evaluation results regarding our research questions. 5 結果】以下の研究課題について,下流の課題評価結果について検討する。 0.65
英語(論文から抽出)日本語訳スコア
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
Althammer, et al Althammer, et al 0.85
IPC classification Accuracy Precision IPC分類 精度 精度 0.78
Recall F1 Score Word2Vec + CNN BERT VanillaBERT Domain adapted 𝑝𝑛𝑐 = 0.50 (MLM) 𝑝𝑛𝑐 = 0.75 (LIM0.75, ours) 𝑝𝑛𝑐 = 1.00 (LIM1, ours) SciBERT VanillaSciBERT Domain adapted 𝑝𝑛𝑐 = 0.50 (MLM) 𝑝𝑛𝑐 = 0.75 (LIM0.75, ours) 𝑝𝑛𝑐 = 1.00 (LIM1, ours) 回想 F1 スコア Word2Vec + CNN BERT VanillaBERT Domainapted pnc = 0.50 (MLM) pnc = 0.75 (LIM0.75, ours) pnc = 1.00 (LIM1, ours) SciBERT VanillaSciBERT Domainapted pnc = 0.50 (MLM) pnc = 0.75 (LIM0.75, ours) pnc = 1.00 (LIM1, ours) 0.67
160k 0.2600 160k 0.2600 0.59
320k 0.2900 320k 0.2900 0.59
160k 0.2600 160k 0.2600 0.59
320k 0.2700 320k 0.2700 0.59
160k 0.2600 160k 0.2600 0.59
320k 0.2900 320k 0.2900 0.59
160k 0.1900 160k 0.1900 0.59
320k 0.2100 320k0.2100 0.57
0.5413 0.5779 0.5413 0.5779 0.59
0.5244 0.5663 0.5244 0.5663 0.59
0.5413 0.5779 0.5413 0.5779 0.59
0.5163 0.5605 0.5163 0.5605 0.59
0.5503† 0.5531† 0.5472† 0.5503† 0.5531† 0.5472† 0.36
0.5813† 0.5820† 0.5790† 0.5813† 0.5820† 0.5790† 0.36
0.5275† 0.5296† 0.5227† 0.5275† 0.5296† 0.5227† 0.36
0.5744† 0.5703† 0.5700† 0.5744† 0.5703† 0.5700† 0.36
0.550† 0.5531† 0.5472† 0.550† 0.5531† 0.5472† 0.36
0.5813† 0.5820† 0.5790† 0.5813† 0.5820† 0.5790† 0.36
0.5250† 0.5279† 0.5218† 0.5250† 0.5279† 0.5218† 0.36
0.5651† 0.5647† 0.5614† 0.5651† 0.5647† 0.5614† 0.36
0.5604 0.5864 0.5604 0.5864 0.59
0.5422 0.5782 0.5422 0.5782 0.59
0.5604 0.5864 0.5604 0.5864 0.59
0.5356 0.5709 0.5356 0.5709 0.59
0.5636† 0.5693† 0.5626† 0.5636† 0.5693† 0.5626† 0.36
0.5909† 0.5927† 0.5955† 0.5909† 0.5927† 0.5955† 0.36
0.5414† 0.5486† 0.5493† 0.5414† 0.5486† 0.5493† 0.36
0.5800† 0.5821† 0.5840† 0.5800† 0.5821† 0.5840† 0.36
0.5636† 0.5693† 0.5626† 0.5636† 0.5693† 0.5626† 0.36
0.5909† 0.5927† 0.5955† 0.5909† 0.5927† 0.5955† 0.36
0.5386† 0.5449† 0.5420† 0.5386† 0.5449† 0.5420† 0.36
0.5738† 0.5760† 0.5778† 0.5738† 0.5760† 0.5778† 0.36
Table 2: Accuracy, precision, recall and F1-score of IPC classification on the test set for BERT and SciBERT without and with domain-adaptive pre-training with MLM or LIM (𝑝𝑛𝑐 = 0.75/1.00), † indicates statistically significant difference to Vanilla baseline, 𝛼 = 0.05 表2: MLM や LIM (pnc = 0.75/1.00) によるドメイン適応事前トレーニングのない BERT と SciBERT のテストセット上でのIPC 分類の精度、精度、リコール、F1スコアは、Vanilla ベースラインに対する統計的に有意な差を示し、α = 0.05 である。
訳抜け防止モード: 表2 : ipc分類の精度,精度,リコールおよびf1-score そして、mlmまたはlim(pnc = 0.75/1.00)によるドメイン-適応プレ-トレーニング。 バニラ基数 , α = 0.05 に対する統計的に有意な差を示す。
0.75
Similarity matching Accuracy 類似性マッチング 精度 0.78
Precision Recall F1 Score 精度 回想 F1 スコア 0.64
Word2Vec + CNN BERT VanillaBERT Domain adapted 𝑝𝑛𝑐 = 0.50 (MLM) 𝑝𝑛𝑐 = 0.75 (LIM0.75, ours) 𝑝𝑛𝑐 = 1.00 (LIM1, ours) SciBERT VanillaSciBERT Domain adapted 𝑝𝑛𝑐 = 0.50 (MLM) 𝑝𝑛𝑐 = 0.75 (LIM0.75, ours) 𝑝𝑛𝑐 = 1.00 (LIM1, ours) Word2Vec + CNN BERT VanillaBERT Domainapted pnc = 0.50 (MLM) pnc = 0.75 (LIM0.75, ours) pnc = 1.00 (LIM1, ours) SciBERT VanillaSciBERT Domainapted pnc = 0.50 (MLM) pnc = 0.75 (LIM0.75, ours) pnc = 1.00 (LIM1, ours) 0.83
4k 0.5016 12k 0.5027 4k 0.5016 12k 0.5027 0.65
4k 0.5086 12k 0.5104 4k 0.5086 12k0.5104 0.64
4k 0.5016 12k 0.5027 4k 0.5016 12k 0.5027 0.65
4k 0.3646 12k 0.3812 4k 0.3646 12k 0.3812 0.65
0.8334 0.8444 0.8334 0.8444 0.59
0.8545 0.8562 0.8545 0.8562 0.59
0.8334 0.8444 0.8334 0.8444 0.59
0.8304 0.8428 0.8304 0.8428 0.59
0.8519† 0.8574† 0.8484† 0.8519† 0.8574† 0.8484† 0.36
0.8639† 0.8669† 0.8599† 0.8639† 0.8669† 0.8599† 0.36
0.8641† 0.8613† 0.8551† 0.8641† 0.8613† 0.8551† 0.36
0.8746† 0.8812† 0.8724† 0.8746† 0.8812† 0.8724† 0.36
0.8519† 0.8574† 0.8484† 0.8519† 0.8574† 0.8484† 0.36
0.8639† 0.8669† 0.8599† 0.8639† 0.8669† 0.8599† 0.36
0.8503† 0.8568† 0.8474† 0.8503† 0.8568† 0.8474† 0.36
0.8627† 0.8654† 0.8584† 0.8627† 0.8654† 0.8584† 0.36
0.8294 0.8489 0.8294 0.8489 0.59
0.8314 0.8599 0.8314 0.8599 0.59
0.8294 0.8489 0.8294 0.8489 0.59
0.8289 0.8474 0.8289 0.8474 0.59
0.8524† 0.8614† 0.8519† 0.8524† 0.8614† 0.8519† 0.36
0.8684† 0.8689† 0.8664† 0.8684† 0.8689† 0.8664† 0.36
0.8733† 0.8672† 0.8711† 0.8733† 0.8672† 0.8711† 0.36
0.8808† 0.8827† 0.8774† 0.8808† 0.8827† 0.8774† 0.36
0.8524† 0.8614† 0.8519† 0.8524† 0.8614† 0.8519† 0.36
0.8684† 0.8689† 0.8662† 0.8684† 0.8689† 0.8662† 0.36
0.8499† 0.8606† 0.8496† 0.8499† 0.8606† 0.8496† 0.36
0.8671† 0.8674† 0.8655† 0.8671† 0.8674† 0.8655† 0.36
Table 3: Accuracy, precision, recall and F1-score of similarity matching on the test set for BERT and SciBERT without and with domain-adaptive pre-training with MLM or LIM (𝑝𝑛𝑐 = 0.75/1.00), † indicates statistically significant difference to Vanilla baseline, 𝛼 = 0.05 表3: BERT と SciBERT のテストセットにおいて MLM または LIM (pnc = 0.75/1.00) によるドメイン適応事前トレーニングなしでの精度、精度、リコール、F1-スコアの類似性マッチング。 0.66
5.1 RQ 1: BERT vs SciBERT Comparing the evaluation results of BERT and SciBERT for IPC classification and for similarity matching leads to the conclusion that the SciBERT based models achieve an overall higher performance. 5.1 RQ 1: BERT vs SciBERT IPC分類と類似性マッチングのためのBERTとSciBERTの評価結果を比較すると、SciBERTベースのモデルが全体的なより高い性能を達成するという結論に至る。 0.77
For the IPC classification the results in Table 2 show that the SciBERT model outperforms the equally domain-adapted BERT model (for MLM, LIM0.75 and LIM1) by 1 − 2% downstream task performance. IPC分類では、SciBERTモデルが同様にドメイン適応BERTモデル(MLM、LIM0.75、LIM1)を1-2%ダウンストリームタスク性能で上回っていることが表2で示されている。 0.68
In Table 3 we see the results for similarity matching 表3では類似性マッチングの結果が見られます 0.83
and comparing the performance of the BERT-based and SciBERTbased models shows the same picture. そして、BERTベースのモデルとSciBERTベースのモデルのパフォーマンスを比較した。 0.58
The domain-adapted SciBERT based model outperforms the corresponding BERT model by 1− 2% downstream task performance. ドメイン適応SciBERTベースのモデルは、対応するBERTモデルよりも1-2%ダウンストリームタスク性能が高い。 0.65
Overall the SciBERT model domain adapted with LIM with 𝑝𝑛𝑐 = 0.75 achieves the best performance for IPC classification and similarity matching. 全体として、LIMにpnc = 0.75で適応したSciBERTモデルドメインは、IPC分類と類似性マッチングの最良のパフォーマンスを達成する。 0.62
英語(論文から抽出)日本語訳スコア
Linguistically Informed Masking for Representation Learning in the Patent Domain 特許領域における表現学習のための言語情報マスキング 0.76
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
5.2 RQ 2: MLM vs LIM We compare the domain-adaptive pre-training methods of MLM and LIM, by evaluating the downstream task performance of BERT and SciBERT domain adapted either with LIM with 𝑝𝑛𝑐 = 0.75 or 𝑝𝑛𝑐 = 1.00 or MLM. 5.2 RQ 2: MLM vs LIM MLM と LIM のドメイン適応型事前学習法を比較し,pnc = 0.75 または pnc = 1.00 または MLM で適応した BERT と SciBERT ドメインの下流タスク性能を評価する。 0.87
If we compare the evaluation results for the IPC classification in Table 2 we find that for BERT and SciBERT the domain adapted representations with LIM lead to a higher downstream task performance, for BERT LIM0.75 demonstrates the best results, for SciBERT LIM1 shows the highest performance. 表2におけるIPC分類の評価結果を比較すると、BERT と SciBERT では、LIM を用いたドメイン適応表現がよりダウンストリームなタスク性能をもたらすことが分かり、BERT LIM0.75 では、SciBERT LIM1 では、最高の結果を示す。 0.77
For the task of similarity matching we find similar results: BERT and SciBERT achieve the best performance for similarity matching based on the domain adapted representations of LIM0.75. BERTとSciBERTは、LIM0.75のドメイン適応型表現に基づいて、類似性マッチングのための最高のパフォーマンスを達成する。
訳抜け防止モード: 類似性マッチングの課題に対して、類似した結果を求める : BERT と SciBERT は LIM0.75 のドメイン適応表現に基づく類似性マッチングの最高の性能を達成する。
0.73
In order to compare the performance gains to the baseline performance of the BERT models without domain adaptation, we can see the relative accuracy improvement compared to the baseline BERT model of the MLM and LIM domain fine-tuned models in Figures 3 and 4 for the BERT-based models and the SciBERT-based models respectively. 領域適応のないBERTモデルのベースライン性能と比較するために, 図3, 4におけるMLMおよびLIMドメインの細調整モデルのベースラインBERTモデルと, SciBERTモデルとの相対的な精度向上が見られた。
訳抜け防止モード: BERTモデルの性能向上を,ドメイン適応を伴わないベースライン性能と比較する。 MLMのベースラインBERTモデルと比較すると,相対的な精度向上が見られる。 LIM ドメインファイン - BERT ベースのモデルのための図 3 と 4 のチューニングモデル そして、SciBERTベースのモデルはそれぞれ。
0.82
For the BERT-based models we can see that the improvement of the LIM domain fine-tuned model with a noun chunk masking of 𝑝𝑛𝑐 = 0.75 is consistently the highest for each size of downstream task training data for both downstream tasks, besides for the IPC classification trained on 480𝑘 samples, where the domain adapted model with 𝑝𝑛𝑐 = 1.00 improves the performance compared to the domain adapted model with 𝑝𝑛𝑐 = 0.75. BERTベースのモデルでは、pnc = 0.75の名詞チャンクマスキングによるLIMドメインの微調整モデルの改善が、pnc = 0.75のドメイン適応モデルに比べて、pnc = 0.75のドメイン適応モデルよりもパフォーマンスが向上する480kサンプルでトレーニングされたIPCの他に、下流タスクトレーニングデータのサイズごとに一貫して最高であることが分かる。 0.77
Similarly we observe that the LIM0.75 SciBERT model achieves the highest improvement for the similarity matching for all data set sizes, for the IPC classification the performance improvement for a smaller dataset size of 160𝑘 labelled samples is significant. 同様に、LIM0.75 SciBERTモデルでは、全てのデータセットサイズに対する類似度マッチングが最高に向上していることが観察され、IPC分類では、160kのラベル付きサンプルのより小さなデータセットサイズに対する性能改善が重要である。
訳抜け防止モード: 同じように LIM0.75 SciBERTモデルは、すべてのデータセットサイズに対する類似性マッチングの最高の改善を達成する。 IPC分類では,160kラベル付きサンプルのデータセットサイズが小さくなった。
0.81
Figure 3: Relative accuracy improvement from vanilla BERT to MLM or LIM domain fine-tuned BERT models for different sizes of downstream task training data 図3:下流タスクトレーニングデータの異なるサイズに対するバニラBERTからMLMまたはLIMドメイン微調整BERTモデルへの相対的精度改善 0.74
Especially in the setting of less training data for the downstream tasks, we can observe substantial performance improvements of the LIM0.75 domain fine-tuned models compared to the MLM finetuned model on both tasks and both models. 特に下流タスクのトレーニングデータの少ない設定では、lim0.75ドメインの微調整モデルの性能改善を両タスクと両方のモデルのmlm微調整モデルと比較して確認することができる。 0.79
Therefore our experiments show that domain fine-tuning using LIM leads to improved representations, when comparing LIM to MLM on the two independent domain specific downstream tasks. そこで本実験では,2つの独立したドメイン固有下流タスクにおいて,LIMとMLMを比較した場合,LIMを用いたドメインの微調整により表現性が向上することを示した。 0.56
These evaluation results demonstrate that the representations of patent language, which are domain adapted using the linguistically informed masking training method, achieve higher downstream task performance on two independent patent-related downstream tasks. これらの評価結果から,2つの独立した特許関連ダウンストリームタスクにおいて,言語的インフォームドマスキング訓練法を用いたドメイン適応型パテント言語の表現により,下流課題性能が向上することが示された。 0.66
Especially in the low data regime of the downstream task, the performance gains of the LIM representations are substantial. 特に、下流タスクの低データレギュレーションでは、LIM表現のパフォーマンスが大幅に向上する。 0.51
6 ANALYSIS OF RESULTS In this section we analyze our results regarding the better suitability of the SciBERT model to represent patent language than the BERT model as well as regarding the weighting factor 𝑝𝑛𝑐 of the noun chunk masking in domain adaptive pre-training. 6) 本節における結果の分析により,scibertモデルがbertモデルよりも特許言語に適合することを示すこと,およびドメイン適応事前学習における名詞チャンクマスキングの重み付け係数pncについて解析した。 0.67
6.1 Tokenization analysis The language models BERT and SciBERT are trained to encode a given text into representations. 6.1 トークン化解析 言語モデル BERT と SciBERT は、与えられたテキストを表現にエンコードするように訓練される。 0.70
Every language model has a tokenization, and it has become common practice to train the tokenization of language models with a subword algorithm [18]. どの言語モデルにもトークン化があり、サブワードアルゴリズム[18]で言語モデルのトークン化を訓練することが一般的になっている。 0.82
The Figure 4: Relative accuracy improvement from vanilla SciBERT to MLM or LIM domain-finetuned SciBERT models for different sizes of downstream task training data 図4:下流タスクトレーニングデータの異なるサイズに対するバニラSciBERTからMLMまたはLIMドメインファインチュニングSciBERTモデルへの相対的精度改善 0.60
language model is then pre-trained in an unsupervised manner on domain language. 言語モデルはドメイン言語上で教師なしの方法で事前訓練される。 0.73
Therefore the quality of the representations of a language model for a specific language domain depends on the similarity of the pre-training language and the target domain, as well as the suitability of the tokenization to the target domain. したがって、特定の言語ドメインに対する言語モデルの表現の質は、事前訓練された言語と対象ドメインの類似性、および、対象ドメインへのトークン化の適合性に依存する。 0.75
In this section we investigate one potential reason of the better suitability of the SciBERT model to encode patent language than of the BERT model: the tokenization. 本稿では,SciBERT モデルが BERT モデルよりも特許言語を符号化するのに適している可能性として,トークン化について検討する。 0.74
We analyze which tokenization is most suitable for patent language by comparing a subword tokenization trained on patent data to the tokenizations which BERT and SciBERT use for encoding. 特許データに基づいて訓練されたサブワードトークン化を,BERT と SciBERT が符号化に使用するトークン化と比較することにより,どのトークン化が特許言語に最も適しているかを分析する。 0.59
We measure the suitability of the tokenization by the split ratio, トークン化の適合性を分割比率で測定する。 0.54
英語(論文から抽出)日本語訳スコア
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
Althammer, et al Althammer, et al 0.85
Tokenization Encoding BERT SciBERT Patent BERT SciBERT特許を符号化するトークン化 0.60
[’f’, ’##em’, ’##to’, ’access’, ’point’] [’fem’, ’##to’, ’access’, ’point’] [’femto’, ’access’, ’point’] [’f’, ’##em’, ’##to’, ’access’, ’point’] [’fem’, ’#to’, ’access’, ’point’] [’femto’, ’access’, ’point’]] [’femto’, ’access’, ’point’] ] 0.97
Table 4: Encoding of the fragment “femto access point” using three different trained vocabularies 表4: 3つの異なる訓練された語彙を用いた「フェムトアクセスポイント」の符号化 0.82
Figure 5: Distribution of the sentence length for different tokenizations 図5:異なるトークン化のための文長の分布 0.84
which is defined as length of the encoded sentence divided by the number of words in the sentence. これは、文中の単語の個数で区切られた符号化された文の長さとして定義される。 0.58
A lower split ratio indicates better suitability for the domain because words are not split as often, thus domain-relevant words are retained in full more often rather than being split into less information rich parts. 低い分割比は、単語が頻繁に分割されないため、ドメインに関連する単語がより少ない情報に分割されるよりも、より頻繁に完全に保持されるため、ドメインに適したことを示す。 0.74
Following Beltagy et al [4] we train a vocabulary with the Sentencepiece algorithm [18] on 5 million sentences of the patent dataset. Beltagy et al [4]に続いて、特許データセットの500万文に対して、Sentencepieceアルゴリズム[18]で語彙をトレーニングします。 0.72
As the split ratio of the training sentences is similar to the split ratio of unseen patent sentences, we conclude that the tokenization is sufficiently well trained on these 5 million training sentences to be a general encoding of patent language. 訓練文の分割比率は未発見の特許文の分割比と類似しているため、これらの500万の訓練文に対してトークン化を十分に訓練し、特許言語の一般的なエンコーディングであると結論づける。 0.69
Now we want to compare the different vocabularies for encoding patent language. 今度は、特許言語をエンコードするための異なる語彙を比較したい。 0.69
The example in Table 4 shows how a suitable tokenization leads to less splitting up into subwords as it includes special words such as “femto” in full. 表4の例では、“femto”のような特別な単語をフルに含むため、適切なトークン化によってサブワードに分割される方法を示している。 0.70
In order to compare the performance of the different vocabularies for encoding patent language we determine the length of the encodings for 1.6 million sentences from patents with the different vocabularies. 特許言語を符号化するための異なる語彙のパフォーマンスを比較するために、異なる語彙を持つ特許から160万文の符号化の長さを決定する。 0.77
In Figure 5 is the distribution of the sentence length in total number of words and the distribution of the different encoding lengths of the sentences with the average as dashed vertical line. 図5では、単語の総数における文長の分布と、各文の異なる符号化長の分布を、平均的な縦線で分割する。 0.68
We can see that the encoding length with the SciBERT tokenization is shorter than the encoding with the BERT vocabulary. SciBERTトークン化による符号化長は、BERT語彙による符号化よりも短いことが分かる。 0.68
We observe an average split ratio for the patent tokenization of 1.16, for the SciBERT tokenization of 1.21 and for the BERT tokenization of 1.29. 我々は特許トークン化1.16、SciBERTトークン化1.21、BERTトークン化1.29の平均分割比率を観察した。 0.56
Because of the shorter encoding length and the smaller 符号化長が短くて小さかったため 0.70
Figure 6: Effect of balancing the noun chunk masking with the parameter 𝑝𝑛𝑐: representations which are domain finetuned using LIM0.75 show promising accuracy improvements for both downstream tasks and for both BERT-based representations 図6: 名詞チャンクマスキングとパラメータpncとのバランスの効果: LIM0.75を用いてドメインを微調整した表現は、下流タスクとBERTベースの表現の両方において有望な精度向上を示す。 0.65
split ratio of the SciBERT tokenization relative to BERT, we can conclude that the SciBERT tokenization fits better to encode the patent language. BERTと比較してSciBERTトークン化の分割比は、SciBERTトークン化が特許言語を符号化するのに適していると結論付けることができる。
訳抜け防止モード: SciBERTトークン化の BERT に対する分割比率は SciBERTトークン化は、特許言語を符号化するのに適しています。
0.75
Because the representations are learned for the tokens in the vocabulary, it follows that the better the tokenization fits to the language domain the more specific information can be captured by the learned representations. 表現は語彙のトークンのために学習されるため、トークン化が言語ドメインに適合するほど、より具体的な情報は学習した表現によってキャプチャされる。 0.66
As the tokenization of the SciBERT language model fits better to represent patent language than the BERT vocabulary, we suggest this as a reason that the SciBERT language model shows better results for representing patent language than BERT. SciBERT言語モデルのトークン化は、BERTボキャブラリよりも特許言語を表現するのに適しているので、SciBERT言語モデルがBERTよりも特許言語を表現するのにより良い結果を示す理由として提案する。 0.72
6.2 Masking probability analysis We also want to investigate the effect of balancing the domain adaptive pre-training with the noun chunk masking parameter 𝑝𝑛𝑐 which gives the ability to control the learning from different linguistic information from the target domain. 6.2 マスキング確率分析 また, 対象領域から異なる言語情報から学習を制御できる名詞チャンクマスキングパラメータpncと, ドメイン適応型事前学習のバランスをとる効果についても検討する。 0.76
For that we analyze the accuracy improvements of different noun chunk masking values 𝑝𝑛𝑐 for domain adaptive pre-training for BERT and SciBERT on both downstream tasks. そこで我々は,両下流タスクにおけるBERTとSciBERTのドメイン適応事前学習のための異なる名詞チャンクマスキング値pncの精度改善について分析した。 0.63
We show the accuracy improvements compared to the baseline models without domain adaptative pre-training in Figure 6. 図6に示すように、ドメイン適応事前学習を行わないベースラインモデルと比較して精度が向上した。 0.67
Here one can observe the clear trend that shifting the noun chunk masking towards the noun chunks with a weighting of 75% masked noun chunks and 25% masked non-noun chunks lead to higher accuracy improvements for both downstream tasks. ここでは、75%のマスク付き名詞チャンクと25%のマスク付き非名詞チャンクで、名詞チャンクを名詞チャンクにシフトさせることで、下流タスクの両方の精度が向上する、という明確な傾向を観察できる。
訳抜け防止モード: ここでは、名詞チャンクのマスキングを75%のマスキングで名詞チャンクにシフトする明確な傾向を観察することができる。 25%の非名詞チャンクがマスキングされ、下流タスクの精度が向上した。
0.64
However focusing the domain fine-tuning only on the noun chunks, in other words LIM1, shows suboptimal results, which leads to the conclusion that balancing the masking of noun chunks and non-noun chunks between the values of 0.5 and 1.0 is beneficial for domain adaptive pre-training for patent language. しかし、名詞チャンクのみに焦点を合わせると、LIM1は準最適結果を示し、0.5 と 1.0 の値の間の名詞チャンクと非名詞チャンクのマスキングのバランスが、特許言語のドメイン適応事前訓練に有用であるという結論に至る。 0.64
英語(論文から抽出)日本語訳スコア
Linguistically Informed Masking for Representation Learning in the Patent Domain 特許領域における表現学習のための言語情報マスキング 0.76
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
7 CONCLUSION Overall we conclude that domain adaptive pre-training for learning representations of patent language is beneficial for pre-trained masked language models like BERT and SciBERT. 7 ConCLUSION 総合的な結論として,特許言語の学習表現のためのドメイン適応型事前学習は,BERT や SciBERT のような事前学習されたマスキング言語モデルに有用である。 0.57
We find that the SciBERT-based representations outperform the BERT-based representations of patent language for the two independent downstream tasks of IPC classification and similarity matching. SciBERTに基づく表現は、IPC分類と類似性マッチングの2つの独立した下流タスクにおいて、BERTに基づく特許言語の表現よりも優れていることがわかった。 0.53
Therefore we conclude that SciBERT is more suitable to represent patent language than the BERT model and see one reason for that in the suitability of the tokenization of SciBERT to patent language. したがって、SciBERT は BERT モデルよりも特許言語を表現するのに適していると結論し、SciBERT の特許言語へのトークン化が適している理由の1つを見出した。 0.72
Furthermore we have proposed the empirically motivated domain adaptive pretraining method of linguistically informed masking for BERT-like language models. さらに,BERT型言語モデルに対する言語情報マスキングの実証的なドメイン適応事前学習手法を提案する。 0.74
We demonstrate improvements on both patentrelated downstream tasks for representations of patent language that have been domain-adapted using the LIM method. LIM法を用いてドメイン適応した特許言語を表現するために、特許関連下流タスクの改善を示す。 0.73
Furthermore we analyze the impact of the weighting factor for shifting the masking towards the noun chunks. さらに,マスキングを名詞チャンクにシフトさせる際の重み付け係数の影響を解析した。 0.64
We conclude that domain adaptive pre-training with linguistically informed masking improves the representations of the patent domain for BERT and SciBERT and that balancing the weighting to learn from different linguistic information is beneficial for representation learning. 言語情報マスキングによるドメイン適応型事前学習は,BERT と SciBERT の特許ドメインの表現を改善し,言語情報から学習するための重み付けのバランスは表現学習に有用である,と結論付けた。 0.71
REFERENCES [1] Emily Alsentzer, John Murphy, William Boag, Wei-Hung Weng, Di Jindi, Tristan Naumann, and Matthew McDermott. 参考: Emily Alsentzer, John Murphy, William Boag, Wei-Hung Weng, Di Jindi, Tristan Naumann, Matthew McDermott 0.70
2019. Publicly Available Clinical BERT Embeddings. 2019. 利用可能な臨床用bert埋め込み。 0.69
In Proceedings of the 2nd Clinical Natural Language Processing Workshop. 第2回臨床自然言語処理ワークショップの開催にあたって 0.82
Association for Computational Linguistics, Minneapolis, Minnesota, USA, 72–78. ミネソタ州ミネアポリスの計算言語学協会、72-78。 0.53
https://doi.org/10.1 8653/v1/W19-1909 https://doi.org/10.1 8653/v1/W19-1909 0.24
[2] Sophia Althammer, Sebastian Hofstätter, and Allan Hanbury. [2] sophia althammer、sebastian hofstätter、allan hanbury。 0.58
2021. Cross-domain Retrieval in the Legal and Patent Domains: a Reproducibility Study. 2021. 法律及び特許領域におけるクロスドメイン検索:再現性の研究。 0.84
In Advances in Information Retrieval, 43rd European Conference on IR Research, ECIR 2021. 第43回欧州赤外線研究会議(ecir 2021)における情報検索の進歩 0.74
[3] Leonidas Aristodemou and Frank Tietze. レオニダス・アリストデモ(Leonidas Aristodemou)とフランク・ティーツェ(Frank Tietze)。 0.43
2018. The state-of-the-art on Intellectual Property Analytics (IPA): A literature review on artificial intelligence, machine learning and deep learning methods for analysing intellectual property (IP) data. 2018. the state-of-the-art on intellectual property analytics (ipa: a literature review on artificial intelligence, machine learning and deep learning methods for analysis of intellectual property (ip) data。 0.89
World Patent Information 55 (12 2018), 37–51. 世界特許情報55(2018年12月)、37-51頁。 0.53
https://doi.org/10.1 016/j.wpi.2018. https://doi.org/10.1 016/j.wpi.2018 0.32
07.002 [4] Iz Beltagy, Kyle Lo, and Arman Cohan. 07.002 [4]Iz Beltagy、Kyle Lo、Arman Cohan。 0.59
2019. SciBERT: A Pretrained Language Model for Scientific Text. 2019. SciBERT: 科学テキストのための事前訓練された言語モデル。 0.78
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)に参加して
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して
0.79
Association for Computational Linguistics, Hong Kong, China, 3615–3620. アソシエーション・フォー・計算言語学、香港、中国、3615-3620。 0.50
https://doi.org/10.1 8653/v1/D19-1371 [5] Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras, and Ion Androutsopoulos. https://doi.org/10.1 8653/v1/d19-1371 [5] ilias chalkidis、manos fergadiotis、prodromos malakasiotis、nikolaos aletras、ion androutsopoulos。 0.51
2020. LEGAL-BERT: The Muppets straight out of Law School. 2020. LEGAL-BERT: ロースクールから真っ直ぐ出るマペット。 0.79
In Findings of the Association for Computational Linguistics: EMNLP 2020. 計算言語学協会 (association for computational linguistics: emnlp 2020) の略称。 0.67
Association for Computational Linguistics, Online, 2898–2904. Association for Computational Linguistics, Online, 2898–2904 0.88
https: //doi.org/10.18653/v 1/2020.findings-emnl p.261 https: //doi.org/10.18653/v 1/2020.findings-emnl p.261 0.20
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.76
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). the association for computational linguistics: human language technologies, volume 1 (long and short papers) 北アメリカ支部の2019年会議の議事録において。 0.75
Association for Computational Linguistics, Minneapolis, Minnesota, 4171–4186. ミネソタ州ミネアポリスの計算言語学協会、4171-4186。 0.63
https://doi.org/10.1 8653/v1/N19-1423 https://doi.org/10.1 8653/v1/N19-1423 0.24
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 5]Jacob Devlin氏、Ming-Wei Chang氏、Kenton Lee氏、Kristina Toutanova氏。 0.67
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). the association for computational linguistics: human language technologies, volume 1 (long and short papers) 北アメリカ支部の2019年会議の議事録において。 0.75
Association for Computational Linguistics, Minneapolis, Minnesota, 4171–4186. ミネソタ州ミネアポリスの計算言語学協会、4171-4186。 0.63
https://doi.org/10.1 8653/v1/N19-1423 https://doi.org/10.1 8653/v1/N19-1423 0.24
[8] Eva D’hondt. [8] eva d’hondt です。 0.84
2009. Lexical issues of a syntactic approach to interactive patent 2009. 対話型特許に対する構文的アプローチの語彙問題 0.81
retrieval. (2009). 検索。 (2009). 0.70
[9] European Patent Office EPO. [9]欧州特許庁 EPO 0.59
2019. Guidelines for Examination. 2019. 試験のガイドライン。 0.77
(2019). https:// www.epo.org/law-prac tice/legal-texts/htm l/guidelines/e/b_x_9 _2_1.htm Access: 26.12.19. (2019). https:// www.epo.org/law-prac tice/legal-texts/htm l/guidelines/e/b_x_9 _2_1.htm Access: 26.12.19 0.55
[10] Manaal Faruqui, Jesse Dodge, Sujay Kumar Jauhar, Chris Dyer, Eduard Hovy, and Noah A. Smith. Manaal Faruqui氏、Jesse Dodge氏、Sujay Kumar Jauhar氏、Chris Dyer氏、Eduard Hovy氏、Noah A. Smith氏。 0.76
2015. Retrofitting Word Vectors to Semantic Lexicons. 2015. 単語ベクトルのセマンティック辞書への再適合 0.75
In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2015年、計算言語学会(association for computational linguistics: human language technologies)の北米支部が開催される。 0.69
Association for Computational Linguistics, Denver, Colorado, 1606–1615. association for computational linguistics, denver, colorado, 1606–1615を参照。 0.69
https://doi.org/10. https://doi.org/10。 0.52
3115/v1/N15-1184 3115/v1/N15-1184 0.24
[11] Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. Thisin Gururangan氏、Ana Marasović氏、Swabha Swayamdipta氏、Kyle Lo氏、Iz Beltagy氏、Doug Downey氏、Noah A. Smith氏。 0.73
2020. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. 2020. 事前訓練を止めるな: 言語モデルをドメインやタスクに適用する。 0.77
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 第58回計算言語学会年次大会を終えて 0.43
Association for Computational Linguistics, Online, 8342–8360. Association for Computational Linguistics, Online, 8342–8360 0.87
https://doi.org/10.1 8653/v1/2020.acl-mai n.740 [12] Xiaochuang Han and Jacob Eisenstein. 10.18653/v1/2020.acl -main.740 [12] Xiaochuang Han and Jacob Eisenstein 0.54
2019. Unsupervised Domain Adaptation of Contextualized Embeddings for Sequence Labeling. 2019. シーケンスラベリングのためのコンテキスト化埋め込みの教師なしドメイン適応 0.72
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)に参加して
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して
0.79
Association for Computational Linguistics, Hong Kong, China, 4238–4248. アソシエーション・フォー・計算言語学、香港、中国、4238-4248。 0.50
https: //doi.org/10.18653/v 1/D19-1433 https: //doi.org/10.18653/v 1/D19-1433 0.24
[13] Sebastian Hofstätter, Navid Rekabsaz, Mihai Lupu, Carsten Eickhoff, and Allan Hanbury. 13]Sebastian Hofstätter, Navid Rekabsaz, Mihai Lupu, Carsten Eickhoff, Allan Hanbury。 0.67
2019. Enriching Word Embeddings for Patent Retrieval with Global Context. 2019. グローバルコンテキストによる特許検索のための単語埋め込みの強化 0.76
In Advances in Information Retrieval, Leif Azzopardi, Benno Stein, Norbert Fuhr, Philipp Mayr, Claudia Hauff, and Djoerd Hiemstra (Eds.). In Advances in Information Retrieval, Leif Azzopardi, Benno Stein, Norbert Fuhr, Philipp Mayr, Claudia Hauff, Djoerd Hiemstra (Eds)。 0.75
Springer International Publishing, Cham, 810–818. Springer International Publishing, Cham, 810-818。 0.92
[14] Jeremy Howard and Sebastian Ruder. 14]ジェレミー・ハワードとセバスチャン・ルーダー 0.51
2018. Universal Language Model Finetuning for Text Classification. 2018. テキスト分類のためのユニバーサル言語モデルの微調整 0.77
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 第56回計算言語学会年次大会紀要(第1巻:長い論文) 0.45
Association for Computational Linguistics, Melbourne, Australia, 328–339. アソシエーション・フォー・計算言語学、オーストラリアのメルボルン、328-339。 0.51
https://doi.org/ 10.18653/v1/P18-1031 https://doi.org/ 10.18653/v1/P18-1031 0.29
[15] Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, and Omer Levy. [15]mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy。 0.79
2020. SpanBERT: Improving Pre-training by Representing and Predicting Spans. 2020. SpanBERT: スプーンの表現と予測による事前トレーニングの改善。 0.75
Transactions of the Association for Computational Linguistics 8 (2020), 64–77. The Association for Computational Linguistics 8 (2020), 64-77。 0.67
[16] Yoon Kim. [16]ヨン・キム。 0.59
2014. Convolutional Neural Networks for Sentence Classification. 2014. 文分類のための畳み込みニューラルネットワーク 0.78
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法に関する2014年会議(EMNLP)の開催報告 0.79
Association for Computational Linguistics, Doha, Qatar, 1746–1751. Association for Computational Linguistics, Doha, Qatar, 1746-1751 0.86
https://doi.org/10.3 115/v1/D14-1181 https://doi.org/10.3 115/v1/D14-1181 0.24
[17] Ralf Krestel, Renukswamy Chikkamath, Christoph Hewel, and Julian Risch. Ralf Krestel氏、Renukswamy Chikkamath氏、Christoph Hewel氏、Julian Risch氏。 0.66
2021. A survey on deep learning for patent analysis. 2021. 特許分析のための深層学習に関する調査研究 0.80
World Patent Information 65 (6 2021). 世界特許情報65(2021年6月6日)。 0.62
https://doi.org/10.1 016/j.wpi.2021.10203 5 https://doi.org/10.1 016/j.wpi.2021.10203 5 0.24
[18] Taku Kudo and John Richardson. [18]工藤卓、ジョン・リチャードソン。 0.60
2018. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. 2018. SentencePiece: ニューラルネットワーク処理のためのシンプルで言語に依存しないサブワードトークンとデトケナイザ。 0.72
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 自然言語処理における経験的手法に関する2018年会議の議事録:システムデモ。 0.77
Association for Computational Linguistics, Brussels, Belgium, 66–71. Association for Computational Linguistics, Brussels, Belgium, 66-71。 0.92
https://doi.org/10.1 8653/v1/D18-2012 https://doi.org/10.1 8653/v1/D18-2012 0.24
[19] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. [19]Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut。 0.74
2019. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. 2019. ALBERT: 言語表現の自己教師型学習のためのLite BERT。 0.83
(2019). arXiv:1909.11942 [cs.CL] (2019). arXiv:1909.1 1942 [cs.CL] 0.66
[20] Jieh-Sheng Lee and Jieh Hsiang. [20]Jieh-Sheng LeeとJieh Hsiang。 0.82
2019. PatentBERT: Patent Classification with Fine-Tuning a pre-trained BERT Model. 2019. PatentBERT: 事前訓練されたBERTモデルによる特許分類。 0.78
CoRR abs/1906.02124 (2019). CoRR abs/1906.02124 (2019)。 0.67
arXiv:1906.02124 http://arxiv.org/abs /1906.02124 arXiv:1906.02124 http://arxiv.org/abs /1906.02124 0.31
[21] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 【21】李仁平、ユンジン、キム・ソンドン、キム・ドンヒョン、キム・スンキュ、キム・チャン・ホー・ソ、ジョン・カン
訳抜け防止モード: [21]李仁ヒョク、Wonjin Yoon、Songdong Kim、 Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang
0.72
2019. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 2019. BioBERT: バイオメディカルテキストマイニングのための事前訓練されたバイオメディカル言語表現モデル。 0.81
Bioinformatics (Sep 2019). バイオインフォマティクス (sep 2019)。 0.71
https://doi.org/10.1 093/bioinformatics/b tz682 https://doi.org/10.1 093/bioinformatics/b tz682 0.28
[22] Jieh-Sheng Lee and Jieh Hsiang. [22]Jieh-Sheng LeeとJieh Hsiang。 0.81
2020. PatentTransformer-2: Controlling Patent 2020. Patent Transformer-2: Controlling Patent 0.79
Text Generation by Structural Metadata. 構造メタデータによるテキスト生成 0.81
arXiv:2001.03708 [cs.CL] arXiv:2001.03708 [cs.CL] 0.53
[23] Shaobo Li, Jie Hu, Yuxin Cui, and Jianjun Hu. [23]ショーボ・リー、ジー・フー、ユキシン・キュイ、ジャンジュン・フー。 0.56
2018. DeepPatent: patent classification with convolutional neural networks and word embedding. 2018. DeepPatent: 畳み込みニューラルネットワークとワード埋め込みによる特許分類。 0.82
Scientometrics 117, 2 (01 Nov 2018), 721–744. Scientometrics 117, 2 (01 Nov 2018), 721–744。 0.87
https://doi.org/10.1 007/s11192-018-2905- 5 https://doi.org/10.1 007/s11192-018-2905- 5 0.22
[24] Hanwen Liu, Huaizhen Kou, and Chao Yan. [24]漢wen Liu、Huaizhen Kou、Chao Yan。 0.66
2019. Link prediction in paper citation network to construct paper correlation graph. 2019. 紙引用ネットワークにおけるリンク予測による紙相関グラフの構築 0.83
EURASIP Journal on Wireless Communications and Networking 2019 (12 2019). EURASIP Journal on Wireless Communications and Networking 2019 (2019年12月) 0.82
https://doi.org/10.1 186/s13638019-1561-7 https://doi.org/10.1 186/s13638019-1561-7 0.25
[25] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu氏、Myle Ott氏、Naman Goyal氏、Jingfei Du氏、Mandar Joshi氏、Danqi Chen氏、Omer Levy氏、Mike Lewis氏、Luke Zettlemoyer氏、Veslin Stoyanov氏。 0.73
2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. 2019. RoBERTa: ロバストに最適化されたBERT事前トレーニングアプローチ。 0.74
(2019). arXiv:1907.11692 [cs.CL] [26] Mihai Lupu and Allan Hanbury. (2019). arXiv:1907.11692 [cs.CL] [26] Mihai Lupu and Allan Hanbury 0.85
2013. Patent Retrieval. 2013. 特許取得。 0.72
Foundations and Trends® in Information Retrieval 7, 1 (2013), 1–97. 基礎とトレンド® In Information Retrieval 7, 1 (2013), 1–97。 0.79
https://doi.org/10.1 561/1500000027 https://doi.org/10.1 561/1500000027 0.34
[27] Parvaz Mahdabi and Fabio Crestani. [27]Parvaz MahdabiとFabio Crestani。 0.72
2014. Query-Driven Mining of Citation Networks for Patent Citation Retrieval and Recommendation. 2014. 特許引用検索と推薦のための引用ネットワークのクエリ駆動マイニング 0.80
CIKM 2014 - Proceedings of the 2014 ACM International Conference on Information and Knowledge Management (11 2014), 1659–1668. CIKM 2014 - 2014 ACM International Conference on Information and Knowledge Management (2014年11月11日), 1659–1668。 0.86
https://doi.org/10.1 145/2661829.2661899 https://doi.org/10.1 145/2661829.2661899 0.29
[28] Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. スティーブン・メリティ、ケイミング・シオング、ジェームズ・ブラッドベリー、リチャード・ソーチャー。 0.50
2016. Pointer Sentinel Mixture Models. 2016. ポインターセンチネル混合モデル。 0.70
CoRR abs/1609.07843 (2016). CoRR abs/1609.07843 (2016)。 0.71
arXiv:1609.07843 http://arxiv.org/abs /1609.07843 arXiv:1609.07843 http://arxiv.org/abs /1609.07843 0.31
[29] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Tomas Mikolov氏、Ilya Sutskever氏、Kai Chen氏、Greg Corrado氏、Jeffrey Dean氏。 0.66
2013. Distributed Representations of Words and Phrases and Their Compositionality. 2013. 単語と句の分散表現とその構成性 0.74
In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2 (Lake Tahoe, Nevada) (NIPS’13). The 26th International Conference on Neural Information Processing Systems - Volume 2 (Lake Tahoe, Nevada) (NIPS’13) に参加して 0.82
Curran Associates Inc., Red Hook, NY, USA, 3111–3119. Curran Associates Inc., Red Hook, NY, USA, 3111–3119 0.87
[30] Pandu Nayak. パンドゥ・ナヤク(Pandu Nayak)。 0.48
2019. Understanding searches better than ever before. 2019. 検索をこれまで以上によく理解する。 0.75
https: //blog.google/produc ts/search/search-lan guage-understanding- bert/. https: //blog.google/produc ts/search/search-lan guage-understanding- bert/ 0.27
[Online; accessed 16-04-2021]. [オンライン、アクセス16-04-2021] 0.59
[31] Rodrigo Nogueira and Kyunghyun Cho. 〔31〕ロドリゴ・ノゲイラ・ユングヒョン長 0.43
2019. Passage Re-ranking with BERT. 2019. BERTで再分類。 0.72
arXiv preprint arXiv:1901.04085 (2019). arXiv preprint arXiv:1901.04085 (2019) 0.83
英語(論文から抽出)日本語訳スコア
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
Althammer, et al Althammer, et al 0.85
[32] Nelleke Oostdijk, Eva D’hondt, Hans Halteren, and Suzan Verberne. [32]Nelleke Oostdijk、Eva D’hondt、Hans Halteren、Suzan Verberne。 0.63
2010. Genre and Domain in Patent Texts. 2010. Genre and Domain in Patent Texts(英語) 0.82
Proceedings of the The 3rd International Workshop on Patent Information Retrieval (PAIR) at CIKM 2010 (10 2010), 39–46. The 3rd International Workshop on Patent Information Retrieval (PAIR) at CIKM 2010 (10 2010), 39-46。 0.75
https: //doi.org/10.1145/18 71888.1871896 https: //doi.org/10.1145/18 71888.1871896 0.29
[33] Sinno Jialin Pan and Qiang Yang. [33]シンノ・ジャリン・パン、チャン・ヤン。 0.42
2010. A Survey on Transfer Learning. 2010. 転校学習に関する調査。 0.76
IEEE Trans. IEEE Trans。 0.82
on Knowl. and Data Eng. Knowl とData Eng。 0.52
22, 10 (2010), 1345–1359. 22, 10 (2010), 1345–1359. 0.94
https://doi.org/10.1 109/ TKDE.2009.191 https://doi.org/10.1 109/TKDE.2009.191 0.32
[34] Jeffrey Pennington, Richard Socher, and Christopher Manning. 34]ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・マニング。 0.53
2014. Glove: Global Vectors for Word Representation. 2014. Glove: ワード表現のためのグローバルベクトル。 0.85
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法に関する2014年会議(EMNLP)の開催報告 0.79
Association for Computational Linguistics, Doha, Qatar, 1532–1543. 計算言語学協会, Doha, Qatar, 1532–1543 0.75
https://doi.org/10.3 115/v1/ D14-1162 https://doi.org/10.3 115/v1/D14-1162 0.29
[35] Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. Matthew Peters氏、Mark Neumann氏、Mohit Iyyer氏、Matt Gardner氏、Christopher Clark氏、Kenton Lee氏、Luke Zettlemoyer氏。 0.76
2018. Deep Contextualized Word Representations. 2018. 深く文脈化された単語表現。 0.65
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). the association for computational languages: human language technologies, volume 1 (long papers) 2018年北アメリカ支部の議事録。 0.60
Association for Computational Linguistics, New Orleans, Louisiana, 2227–2237. ルイジアナ州ニューオーリンズの計算言語学協会、2227-2237。 0.65
https://doi.org/10.1 8653/v1/N18-1202 https://doi.org/10.1 8653/v1/N18-1202 0.24
[36] Florina Piroi, Mihai Lupu, and Allan Hanbury. [36] florina piroi、mihai lupu、allan hanbury。 0.50
2013. Overview of CLEF-IP 2013 Lab. 2013. CLEF-IP 2013 Lab の概要 0.87
In Information Access Evaluation. 情報アクセス評価です 0.56
Multilinguality, Multimodality, and Visualization, Pamela Forner, Henning Müller, Roberto Paredes, Paolo Rosso, and Benno Stein (Eds.). 多言語性、多言語性、可視化、パメラ・フォナー、ヘニング・ミュラー、ロベルト・パレデス、パオロ・ロッソ、ベンノ・スタイン(Eds.)。
訳抜け防止モード: 多言語性,多様性,可視化,パメラ・フォーナー,ヘニング・ミュラー roberto paredes氏、paolo rosso氏、benno stein氏(eds)。
0.70
Springer Berlin Heidelberg, Berlin, Heidelberg, 232–249. ベルリン・ハイデルベルク、ベルリン・ハイデルベルク、232-249。 0.70
[37] Alec Radford. [37] アレク・ラドフォード 0.65
2018. Improving Language Understanding by Generative Pre- 2018. 生成前処理による言語理解の改善 0.77
Training. [38] Julian Risch, Nicolas Alder, Christoph Hewel, and Ralf Krestel. 訓練。 Julian Risch氏、Nicolas Alder氏、Christoph Hewel氏、Ralf Krestel氏。 0.69
2020. PatentMatch: 2020. PatentMatch 0.66
A Dataset for Matching Patent Claims and Prior Art. 特許クレームと先行技術とをマッチングするデータセット。 0.78
arXiv:2012.13919 [cs.IR] [39] Julian Risch and Ralf Krestel. 2012.13919 [cs.IR] [39] Julian Risch氏とRalf Krestel氏。 0.63
2019. Domain-specific word embeddings for patent 2019. 特許のためのドメイン固有語埋め込み 0.72
classification. Data Technol. 分類。 データ技術。 0.75
Appl. 53 (2019), 108–122. アプリ。 53 (2019), 108–122. 0.65
[40] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, and Haifeng Wang. [40]Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang。 0.77
2020. ERNIE 2.0: A Continual Pre-training Framework for Language Understanding. 2020. ERNIE 2.0: 言語理解のための継続的な事前学習フレームワーク。 0.76
ArXiv abs/1907.12412 (2020). ArXiv abs/1907.12412 (2020)。 0.67
[41] Wilson L. Taylor. ウィルソン・L・テイラー(Wilson L. Taylor)。 0.52
1953. "Cloze procedure": a new tool for measuring readability. 1953. クローズプロシージャ:可読性を測定するための新しいツール。 0.75
[42] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, s ukasz Kaiser, Illia Polosukhin
訳抜け防止モード: [42 ]Ashish Vaswani,Noam Shazeer,Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, s ukasz Kaiser そしてIllia Polosukhin。
0.75
2017. Attention is All you Need. 2017. 注意はあなたが必要とするすべてです。 0.73
In Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Eds.). In Advances in Neural Information Processing Systems 30, I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett (Eds.)。 0.96
Curran Associates, Inc., 5998–6008. Curran Associates, Inc., 5998-6008。 0.84
http://papers.nips.c c/paper/7181-attenti onis-all-you-need.pd f http://papers.nips.c c/paper/7181-attenti onis-all-need.pdf 0.21
[43] Suzan Verberne, Nelleke Oostdijk, and Cornelis Koster. 43]Suzan Verberne, Nelleke Oostdijk, Cornelis Koster。 0.63
2010. Quantifying the challenges in parsing patent claims. 2010. 特許クレームの解析における課題の定量化。 0.69
Proceedings of the 1st International Workshop on Advances in Patent Information Retrieval (AsPIRe 2010) (01 2010). 第1回特許情報検索に関する国際ワークショップ (AsPIRe 2010) (01 2010) の報告 0.57
[44] WIPO. 2020. [44]wipo。 2020. 0.74
Guide to the International Patent Classification. 国際特許分類 (International Patent Classification) の略。 0.59
World International World International 0.85
Property Organization. https://www.wipo.int /classifications/ipc /en/ 不動産組織。 https://www.wipo.int /classifications/ipc /en/ 0.48
A APPENDICES A.1 Google BigQuery query for patent dataset a appendices a.1 google bigquery query for patent dataset 0.84
USPTO13M SELECT publication_number , publication_date , filing_date , priority_date , title . USPTO13M SELECT publication_number , publication_date , filing_date , priority_date , title 。 0.62
text AS title , title . text AS title , title 。 0.76
truncated as title_tr , abstract . title_tr 、abstract と表記される。 0.51
text AS abstract , abstract . text AS abstract , abstract . 0.85
truncated as abstract_tr , claim . abstract_tr と表記される。 0.63
text as claim , claim . クレームとしてテキスト クレームとして 0.44
truncated as claim_tr , descr . truncat は claim_tr , descr である。 0.60
text as descr , descr . descr , descr としてテキスト。 0.75
truncated as descr_tr , ARRAY_TO_STRING ( ARRAY ( SELECT code FROM UNNEST (p. ipc )) , ";") AS ipc , ARRAY_TO_STRING ( ARRAY ( SELECT code FROM UNNEST (p. cpc )) , ";") truncated as descr_tr , ARRAY_TO_STRING (ARRAY (SELECT code from UNNEST (p. ipc )) , ";) AS ipc , ARRAY_TO_STRING (ARRAY (SELECT code from UNNEST (p. cpc )) , ";) 0.95
AS cpc FROM ` patents - public - data . 特許 - 公開 - データのcpcとして。 0.70
patents . publications ` p , UNNEST (p. title_localized ) as title , UNNEST (p. abstract_localized ) as abstract , UNNEST (p. claims_localized ) as claim , UNNEST (p. description_localize d ) as descr WHERE filing_date >= 20000101 AND claim . 特許だ タイトルは `p , UNNEST (p. title_localized ) as title , UNNEST (p. abstract_localized ) as abstract , UNNEST (p. claims_localized ) as claim , UNNEST (p. description_localize d ) as descr WHERE filing_date >= 20000101 and claim. 0.74
language = 'en ' AND descr . language = 'en' and descr 0.71
language = 'en ' AND title . language = 'en' と title 。 0.86
language = 'en ' AND abstract . language = 'en' and abstract . 0.93
language = 'en ' AND /* Granted patents only */ application_kind = 'A ' language = 'en' と /* の特許は */ application_kind = 'a' のみである。 0.73
Google BigQuery database accessed on the 04.11.2019 Google BigQueryデータベースが04.11.2019でアクセス 0.75
A.2 Hyperparameter for domain adaptive ドメイン適応型a.2ハイパーパラメータ 0.63
pre-training on patent domain 特許ドメインの事前訓練 0.65
The masking and next sentence accuracies after domain adaptive pre-training each configuration for 2500 steps for the different learning rate candidates 1 ∗ 10−4, 5 ∗ 10−5, 2 ∗ 10−5, 1 ∗ 10−5 as well as the learning rate choice for each configuration can be seen in Table 5. 異なる学習率候補1 ∗ 10−4,5 ∗ 10−5,2 ∗ 10−5,1 ∗ 10−5,1 ∗ 10−5,および各構成の学習率選択について、ドメイン適応前トレーニング後のマスキングと次の文アキュラリティを表5に示す。 0.79
Domain adaptive pre-training was performed on 1 GPU and took 2.5 days for each configuration. ドメイン適応事前トレーニングは1gpuで行われ、各設定に2.5日かかった。 0.66
maximum sequence length masking probability training steps warm-up steps 𝛽1 𝛽2 dropout probability batch size 最大列長マスキング確率トレーニングステップ ウォームアップステップ β1 β2 ドロップアウト確率バッチサイズ 0.77
128 0.15 100,000 10,000 0.9 0.999 0.1 32 128 0.15 100,000 10,000 0.9 0.999 0.1 32 0.50
Table 5: Hyperparameter for domain adaptive pre-training 表5:ドメイン適応事前トレーニングのためのハイパーパラメータ 0.70
A.3 Independence of IPC classification and A.3 IPC分類と独立 0.90
similarity matching In order to test whether there is a trivial relationship between the IPC tags and the similarity relations of a patent, we train a linear SVM classifier on predicting the similarity matching of a pair of patents from their IPC tag representation. 類似性マッチング ipcタグと特許の類似性の関係との間に自明な関係があるかどうかを検証するために、一対の特許の類似性をそのipcタグ表現から予測するために、線形svm分類器を訓練する。 0.78
On an equally balanced 均等にバランスの取れた 0.65
英語(論文から抽出)日本語訳スコア
Linguistically Informed Masking for Representation Learning in the Patent Domain 特許領域における表現学習のための言語情報マスキング 0.76
PatentSemTech, July 15th, 2021, online patentemtech, july 15th, 2021, online 0.83
binary dataset we reach a classification performance which is little better than random (accuracy: 0.59, F1 score: 0.46), and therefore conclude that the two tasks are independent. バイナリデータセットは、ランダム(精度:0.59、F1スコア:0.46)よりもわずかに優れた分類性能に達し、2つのタスクが独立していると結論付ける。 0.72
A.4 Learning rate evaluation for fine-tuning on a.4 微調整の学習率評価 0.79
IPC classification The evaluation of the grid search for the best suitable learning rate for IPC classification fine-tuning can be found in Table 6. IPC分類 IPC分類の微調整に最適な学習率のグリッド探索の評価は表6に記載されている。 0.80
The accuracy values for the different configurations are shown after fine-tuning for 2500 steps with the learning rate candidates 5 ∗ 10−5, 2 ∗ 10−5, 1 ∗ 10−5. 異なる構成の精度値は、学習率候補5 ∗ 10−5, 2 ∗ 10−5, 1 ∗ 10−5の2500ステップの微調整後に示される。 0.81
The IPC classification was performed on 1 GPU and took around 1.5 days for each configuration. IPC分類は1GPU上で行われ、各構成に約1.5日を要した。 0.80
BERT Vanilla BERT MLM BERT LIM0.75 BERT LIM1 SciBERT Vanilla SciBERT MLM SciBERT LIM0.75 SciBERT LIM1 bert vanilla bert mlm bert lim0.75 bert lim1 scibert vailla scibert mlm scibert lim0.75 scibert lim1 0.47
5 ∗ 10−5 0.4321 0.4737 0.4776 0.4830 0.4906 0.5031 0.5142 0.5020 5 ∗ 10−5 0.4321 0.4737 0.4776 0.4830 0.4906 0.5031 0.5142 0.5020 0.47
IPC classification 3 ∗ 10−5 0.4301 0.4598 0.4594 0.4592 0.4773 0.48705 0.4870 0.4863 IPC分類 3 ∗ 10−5 0.4301 0.4598 0.4594 0.4592 0.4773 0.48705 0.4870 0.4863 0.65
2 ∗ 10−5 0.4135 0.4333 0.4372 0.4212 0.4501 0.4652 0.4665 0.4647 2 ∗ 10−5 0.4135 0.4333 0.4372 0.4212 0.4501 0.4652 0.4665 0.4647 0.47
Table 6: Accuracy values for different learning rates after IPC classification fine-tuning each model for 2500 steps 表 6: ipc分類後の異なる学習率の精度値 2500ステップごとに各モデルを微調整する 0.87
A.5 Hyperparameter for fine-tuning on A.5 微調整用ハイパーパラメータ 0.70
similarity matching The hyperparameter for fine-tuning on similarity matching can be found in Table 7. 類似性マッチング 類似性マッチングを微調整するハイパーパラメータはテーブル7で見ることができる。 0.76
Fine-tuning the BERT vanilla model configuration for 1000 steps on the different learning rates of 5 ∗ 10−5, 3 ∗ 10−5, 2 ∗ 10−5 indicates that 2 ∗ 10−5 is the most suitable learning rate for fine-tuning on similarity matching and we choose this rate for all configurations. 5 ∗ 10−5, 3 ∗ 10−5, 2 ∗ 10−5 の異なる学習率の1000ステップのbert vanillaモデル構成の微調整は、2 ∗ 10−5 が類似性マッチングの微調整に最も適した学習率であることを示している。 0.84
The fine-tuning was performed on 1 GPU with 61 RAM and took around 30 hours for each configuration. 微調整は1GPUで61 RAMで行われ、各構成に約30時間かかった。 0.76
maximum sequence length masking probability training steps warm-up steps 𝛽1 𝛽2 dropout probability batch size learning rate 最大シーケンス長マスキング確率トレーニングステップ ウォームアップステップ β1 β2 ドロップアウト確率バッチサイズ学習率 0.85
256 0.15 1000 100 0.9 0.999 0.1 16 2 ∗ 10−5 256 0.15 1000 100 0.9 0.999 0.1 16 2 ∗ 10−5 0.64
Table 7: Hyperparameter for similarity matching finetuning 表7:類似性マッチング微調整のためのハイパーパラメータ 0.68
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。