論文の概要: Semantic Similarity Matching for Patent Documents Using Ensemble
BERT-related Model and Novel Text Processing Method
- arxiv url: http://arxiv.org/abs/2401.06782v1
- Date: Sat, 6 Jan 2024 02:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:42:49.060722
- Title: Semantic Similarity Matching for Patent Documents Using Ensemble
BERT-related Model and Novel Text Processing Method
- Title(参考訳): Ensemble BERT関連モデルと新しいテキスト処理手法を用いた特許文書のセマンティック類似性マッチング
- Authors: Liqiang Yu, Bo Liu, Qunwei Lin, Xinyu Zhao, Chang Che
- Abstract要約: 本稿では,4つのBERT関連モデルを組み込んだアンサンブル手法を提案し,重み付き平均化による意味的類似度を向上する。
第二に、特許文書に適した新しいテキスト前処理方式を導入し、CPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。
- 参考スコア(独自算出の注目度): 4.313626569907121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of patent document analysis, assessing semantic similarity
between phrases presents a significant challenge, notably amplifying the
inherent complexities of Cooperative Patent Classification (CPC) research.
Firstly, this study addresses these challenges, recognizing early CPC work
while acknowledging past struggles with language barriers and document
intricacy. Secondly, it underscores the persisting difficulties of CPC
research.
To overcome these challenges and bolster the CPC system, This paper presents
two key innovations. Firstly, it introduces an ensemble approach that
incorporates four BERT-related models, enhancing semantic similarity accuracy
through weighted averaging. Secondly, a novel text preprocessing method
tailored for patent documents is introduced, featuring a distinctive input
structure with token scoring that aids in capturing semantic relationships
during CPC context training, utilizing BCELoss. Our experimental findings
conclusively establish the effectiveness of both our Ensemble Model and novel
text processing strategies when deployed on the U.S. Patent Phrase to Phrase
Matching dataset.
- Abstract(参考訳): 特許文書分析の分野では、フレーズ間の意味的類似性を評価することは重要な課題であり、特に協調特許分類(CPC)研究の複雑さを増幅している。
まず、これらの課題に対処し、初期のCPC作業を認識しながら、過去の言語障壁と文書の複雑さとの闘いを認識した。
第2に、CPC研究の継続的な困難を浮き彫りにする。
これらの課題を克服し、CPCシステムを強化するために、本稿では2つの重要なイノベーションを示す。
まず、4つのBERT関連モデルを組み込んだアンサンブルアプローチを導入し、重み付け平均化による意味的類似性を向上する。
第二に、特許文書に適した新しいテキスト前処理方式を導入し、BCELossを利用してCPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。
当社の実験結果は,米国特許フレーズからフレーズマッチングデータセットへのデプロイにおいて,アンサンブルモデルと新規テキスト処理戦略の両方の有効性を確定した。
関連論文リスト
- Cross-domain Chinese Sentence Pattern Parsing [69.66298951436747]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Noise Contrastive Estimation-based Matching Framework for Low-Resource
Security Attack Pattern Recognition [49.536368818512116]
TTP(Tactics, Techniques and Procedures)は、サイバーセキュリティドメインにおける高度な攻撃パターンを表す。
そこで本研究では,TTPラベルへのテキストの割り当てが,両者の直接的な意味的類似性によって決定される,異なる学習パラダイムの問題を定式化する。
本稿では,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T19:02:00Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - From Judgement's Premises Towards Key Points [1.648438955311779]
キーポイント分析は、要約と分類を組み合わせたNLPにおける比較的新しいタスクである。
我々は、法的領域に焦点をあて、判断のテキストからKPを識別し抽出する手法を開発する。
論文 参考訳(メタデータ) (2022-12-23T10:20:58Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Interpreting BERT-based Text Similarity via Activation and Saliency Maps [26.279593839644836]
本稿では,事前学習したBERTモデルから推定される段落類似性を説明するための教師なし手法を提案する。
一対の段落を見ると,各段落の意味を規定する重要な単語を識別し,各段落間の単語の一致を判定し,両者の類似性を説明する最も重要なペアを検索する。
論文 参考訳(メタデータ) (2022-08-13T10:06:24Z) - Natural Language Inference with Self-Attention for Veracity Assessment
of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。
そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-05T12:11:31Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - Textual Data Distributions: Kullback Leibler Textual Distributions
Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on
Vaccine & Market Topics & Sentiment [0.0]
効率的なテキストデータ分散(TDD)アライメントと生成は、テキスト分析とNLPにおけるオープンな研究課題である。
我々は、KL Textual Distributions Contrastsという、Kulback-Leibler分散アプリケーションからTDDへの独自のプロセス駆動のバリエーションを開発した。
そこで本研究では、トピックと感情によるTDDの生成と検証のためのユニークなアプローチを特定します。
論文 参考訳(メタデータ) (2021-06-15T21:30:46Z) - Cross-lingual Word Sense Disambiguation using mBERT Embeddings with
Syntactic Dependencies [0.0]
言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。
BERT埋め込みモデルは、単語の文脈情報に有効であることが証明されている。
このプロジェクトは、構文情報がどのようにBERT埋め込みに追加され、セマンティクスと構文を組み込んだ単語埋め込みの両方をもたらすかを調査します。
論文 参考訳(メタデータ) (2020-12-09T20:22:11Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。