Fugu-MT 論文翻訳(概要): Semantic Similarity Matching for Patent Documents Using Ensemble BERT-related Model and Novel Text Processing Method

論文の概要: Semantic Similarity Matching for Patent Documents Using Ensemble BERT-related Model and Novel Text Processing Method

arxiv url: http://arxiv.org/abs/2401.06782v1
Date: Sat, 6 Jan 2024 02:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 12:42:49.060722
Title: Semantic Similarity Matching for Patent Documents Using Ensemble BERT-related Model and Novel Text Processing Method
Title（参考訳）: Ensemble BERT関連モデルと新しいテキスト処理手法を用いた特許文書のセマンティック類似性マッチング
Authors: Liqiang Yu, Bo Liu, Qunwei Lin, Xinyu Zhao, Chang Che
Abstract要約: 本稿では,4つのBERT関連モデルを組み込んだアンサンブル手法を提案し,重み付き平均化による意味的類似度を向上する。第二に、特許文書に適した新しいテキスト前処理方式を導入し、CPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。
参考スコア（独自算出の注目度）: 4.313626569907121
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of patent document analysis, assessing semantic similarity between phrases presents a significant challenge, notably amplifying the inherent complexities of Cooperative Patent Classification (CPC) research. Firstly, this study addresses these challenges, recognizing early CPC work while acknowledging past struggles with language barriers and document intricacy. Secondly, it underscores the persisting difficulties of CPC research. To overcome these challenges and bolster the CPC system, This paper presents two key innovations. Firstly, it introduces an ensemble approach that incorporates four BERT-related models, enhancing semantic similarity accuracy through weighted averaging. Secondly, a novel text preprocessing method tailored for patent documents is introduced, featuring a distinctive input structure with token scoring that aids in capturing semantic relationships during CPC context training, utilizing BCELoss. Our experimental findings conclusively establish the effectiveness of both our Ensemble Model and novel text processing strategies when deployed on the U.S. Patent Phrase to Phrase Matching dataset.
Abstract（参考訳）: 特許文書分析の分野では、フレーズ間の意味的類似性を評価することは重要な課題であり、特に協調特許分類(CPC)研究の複雑さを増幅している。まず、これらの課題に対処し、初期のCPC作業を認識しながら、過去の言語障壁と文書の複雑さとの闘いを認識した。第2に、CPC研究の継続的な困難を浮き彫りにする。これらの課題を克服し、CPCシステムを強化するために、本稿では2つの重要なイノベーションを示す。まず、4つのBERT関連モデルを組み込んだアンサンブルアプローチを導入し、重み付け平均化による意味的類似性を向上する。第二に、特許文書に適した新しいテキスト前処理方式を導入し、BCELossを利用してCPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。当社の実験結果は,米国特許フレーズからフレーズマッチングデータセットへのデプロイにおいて,アンサンブルモデルと新規テキスト処理戦略の両方の有効性を確定した。

関連論文リスト

Enhancing patent retrieval using automated patent summarization [1.067215284497015]
本稿では,特許文書の簡潔で目的特異的な要約を生成するための,最近の抽出および抽象的な要約手法の適用について述べる。実験の結果,要約に基づくクエリにより,先行検索の有効性が著しく向上した。
論文参考訳（メタデータ） (2025-07-22T09:14:44Z)
A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization [0.0]
本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
論文参考訳（メタデータ） (2025-03-13T13:30:54Z)
Scalable Multi-phase Word Embedding Using Conjunctive Propositional Clauses [14.088007380798635]
入力シーケンスの文脈埋め込みを発見するために,2相学習を取り入れた新しい手法を提案する。この技術はスケーラブルなモデルの設計を促進するだけでなく、解釈可能性も維持する。実験の結果,提案手法は従来の手法と比較して競争性能が高いことがわかった。
論文参考訳（メタデータ） (2025-01-31T10:39:04Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。 Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文参考訳（メタデータ） (2024-09-05T09:10:38Z)
Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文参考訳（メタデータ） (2024-08-20T16:42:23Z)
Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction [0.6138671548064356]
テキストデータのPIIはプライバシにとって重要であるが、現在の一般化手法では、不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。本稿では、構造化された入力の性能向上に機械学習を用いた特徴ベース手法と、原文と一般化された候補との間のより広い文脈と意味的関係を考慮したコンテキスト認識フレームワークを提案する。 WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。
論文参考訳（メタデータ） (2024-07-03T06:32:03Z)
Mind Your Neighbours: Leveraging Analogous Instances for Rhetorical Role Labeling for Legal Documents [1.2562034805037443]
本研究では,Rhetorical Role Labeling (RRL) の性能向上のための新しい手法を提案する。推論に基づく手法では、ラベル予測を再学習せずに促進する手法を探索する。トレーニングベースの手法では、埋め込み空間に直接作用する新しい談話対応コントラスト手法と学習を統合する。
論文参考訳（メタデータ） (2024-03-31T08:10:45Z)
Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文参考訳（メタデータ） (2024-02-26T05:30:48Z)
Noise Contrastive Estimation-based Matching Framework for Low-Resource Security Attack Pattern Recognition [49.536368818512116]
TTP(Tactics, Techniques and Procedures)は、サイバーセキュリティドメインにおける高度な攻撃パターンを表す。そこで本研究では,TTPラベルへのテキストの割り当てが,両者の直接的な意味的類似性によって決定される,異なる学習パラダイムの問題を定式化する。本稿では,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-01-18T19:02:00Z)
CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。 CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文参考訳（メタデータ） (2023-09-18T05:38:49Z)
From Judgement's Premises Towards Key Points [1.648438955311779]
キーポイント分析は、要約と分類を組み合わせたNLPにおける比較的新しいタスクである。我々は、法的領域に焦点をあて、判断のテキストからKPを識別し抽出する手法を開発する。
論文参考訳（メタデータ） (2022-12-23T10:20:58Z)
Improving Chinese Spelling Check by Character Pronunciation Prediction: The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文参考訳（メタデータ） (2022-10-20T03:42:35Z)
PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。 MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2021-08-13T02:07:43Z)
Cross-lingual Word Sense Disambiguation using mBERT Embeddings with Syntactic Dependencies [0.0]
言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。 BERT埋め込みモデルは、単語の文脈情報に有効であることが証明されている。このプロジェクトは、構文情報がどのようにBERT埋め込みに追加され、セマンティクスと構文を組み込んだ単語埋め込みの両方をもたらすかを調査します。
論文参考訳（メタデータ） (2020-12-09T20:22:11Z)
Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。 BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文参考訳（メタデータ） (2020-06-02T12:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。