論文の概要: Semantic Similarity Matching for Patent Documents Using Ensemble
BERT-related Model and Novel Text Processing Method
- arxiv url: http://arxiv.org/abs/2401.06782v1
- Date: Sat, 6 Jan 2024 02:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:42:49.060722
- Title: Semantic Similarity Matching for Patent Documents Using Ensemble
BERT-related Model and Novel Text Processing Method
- Title(参考訳): Ensemble BERT関連モデルと新しいテキスト処理手法を用いた特許文書のセマンティック類似性マッチング
- Authors: Liqiang Yu, Bo Liu, Qunwei Lin, Xinyu Zhao, Chang Che
- Abstract要約: 本稿では,4つのBERT関連モデルを組み込んだアンサンブル手法を提案し,重み付き平均化による意味的類似度を向上する。
第二に、特許文書に適した新しいテキスト前処理方式を導入し、CPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。
- 参考スコア(独自算出の注目度): 4.313626569907121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of patent document analysis, assessing semantic similarity
between phrases presents a significant challenge, notably amplifying the
inherent complexities of Cooperative Patent Classification (CPC) research.
Firstly, this study addresses these challenges, recognizing early CPC work
while acknowledging past struggles with language barriers and document
intricacy. Secondly, it underscores the persisting difficulties of CPC
research.
To overcome these challenges and bolster the CPC system, This paper presents
two key innovations. Firstly, it introduces an ensemble approach that
incorporates four BERT-related models, enhancing semantic similarity accuracy
through weighted averaging. Secondly, a novel text preprocessing method
tailored for patent documents is introduced, featuring a distinctive input
structure with token scoring that aids in capturing semantic relationships
during CPC context training, utilizing BCELoss. Our experimental findings
conclusively establish the effectiveness of both our Ensemble Model and novel
text processing strategies when deployed on the U.S. Patent Phrase to Phrase
Matching dataset.
- Abstract(参考訳): 特許文書分析の分野では、フレーズ間の意味的類似性を評価することは重要な課題であり、特に協調特許分類(CPC)研究の複雑さを増幅している。
まず、これらの課題に対処し、初期のCPC作業を認識しながら、過去の言語障壁と文書の複雑さとの闘いを認識した。
第2に、CPC研究の継続的な困難を浮き彫りにする。
これらの課題を克服し、CPCシステムを強化するために、本稿では2つの重要なイノベーションを示す。
まず、4つのBERT関連モデルを組み込んだアンサンブルアプローチを導入し、重み付け平均化による意味的類似性を向上する。
第二に、特許文書に適した新しいテキスト前処理方式を導入し、BCELossを利用してCPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。
当社の実験結果は,米国特許フレーズからフレーズマッチングデータセットへのデプロイにおいて,アンサンブルモデルと新規テキスト処理戦略の両方の有効性を確定した。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction [0.6138671548064356]
テキストデータのPIIはプライバシにとって重要であるが、現在の一般化手法では、不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。
本稿では、構造化された入力の性能向上に機械学習を用いた特徴ベース手法と、原文と一般化された候補との間のより広い文脈と意味的関係を考慮したコンテキスト認識フレームワークを提案する。
WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。
論文 参考訳(メタデータ) (2024-07-03T06:32:03Z) - Mind Your Neighbours: Leveraging Analogous Instances for Rhetorical Role Labeling for Legal Documents [1.2562034805037443]
本研究では,Rhetorical Role Labeling (RRL) の性能向上のための新しい手法を提案する。
推論に基づく手法では、ラベル予測を再学習せずに促進する手法を探索する。
トレーニングベースの手法では、埋め込み空間に直接作用する新しい談話対応コントラスト手法と学習を統合する。
論文 参考訳(メタデータ) (2024-03-31T08:10:45Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Noise Contrastive Estimation-based Matching Framework for Low-Resource
Security Attack Pattern Recognition [49.536368818512116]
TTP(Tactics, Techniques and Procedures)は、サイバーセキュリティドメインにおける高度な攻撃パターンを表す。
そこで本研究では,TTPラベルへのテキストの割り当てが,両者の直接的な意味的類似性によって決定される,異なる学習パラダイムの問題を定式化する。
本稿では,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T19:02:00Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - From Judgement's Premises Towards Key Points [1.648438955311779]
キーポイント分析は、要約と分類を組み合わせたNLPにおける比較的新しいタスクである。
我々は、法的領域に焦点をあて、判断のテキストからKPを識別し抽出する手法を開発する。
論文 参考訳(メタデータ) (2022-12-23T10:20:58Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - Cross-lingual Word Sense Disambiguation using mBERT Embeddings with
Syntactic Dependencies [0.0]
言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。
BERT埋め込みモデルは、単語の文脈情報に有効であることが証明されている。
このプロジェクトは、構文情報がどのようにBERT埋め込みに追加され、セマンティクスと構文を組み込んだ単語埋め込みの両方をもたらすかを調査します。
論文 参考訳(メタデータ) (2020-12-09T20:22:11Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。