論文の概要: A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization
- arxiv url: http://arxiv.org/abs/2503.10354v1
- Date: Thu, 13 Mar 2025 13:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:32.668795
- Title: A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization
- Title(参考訳): 抽象的特許文書要約のための高能率微調整型ハイブリッドアーキテクチャ
- Authors: Nevidu Jayatilleke, Ruvan Weerasinghe,
- Abstract要約: 本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。
この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automatic patent summarization approaches that help in the patent analysis and comprehension procedure are in high demand due to the colossal growth of innovations. The development of natural language processing (NLP), text mining, and deep learning has notably amplified the efficacy of text summarization models for abundant types of documents. Summarizing patent text remains a pertinent challenge due to the labyrinthine writing style of these documents, which includes technical and legal intricacies. Additionally, these patent document contents are considerably lengthier than archetypal documents, which intricates the process of extracting pertinent information for summarization. Embodying extractive and abstractive text summarization methodologies into a hybrid framework, this study proposes a system for efficiently creating abstractive summaries of patent records. The procedure involves leveraging the LexRank graph-based algorithm to retrieve the important sentences from input parent texts, then utilizing a Bidirectional Auto-Regressive Transformer (BART) model that has been fine-tuned using Low-Ranking Adaptation (LoRA) for producing text summaries. This is accompanied by methodical testing and evaluation strategies. Furthermore, the author employed certain meta-learning techniques to achieve Domain Generalization (DG) of the abstractive component across multiple patent fields.
- Abstract(参考訳): 特許分析と理解手続きを支援する自動的な特許要約アプローチは、イノベーションの余剰な成長のために要求が高い。
自然言語処理(NLP)、テキストマイニング、ディープラーニングの開発は、豊富な種類の文書に対するテキスト要約モデルの有効性を顕著に増幅している。
特許文書の要約は、技術的および法的複雑さを含むこれらの文書のラビリンチンの書体スタイルが重要な課題である。
さらに、これらの特許文書の内容は、要約のために関連する情報を抽出するプロセスが複雑になる古文書よりもかなり長い。
本研究は,抽出的および抽象的テキスト要約手法をハイブリッドフレームワークに組み込んだ,特許記録の抽象的要約を効率的に作成するシステムを提案する。
この手順は、LexRankグラフベースのアルゴリズムを利用して入力された親テキストから重要な文を検索し、次に、ローランキング適応(LoRA)を用いて微調整された双方向自動回帰変換器(BART)モデルを用いてテキスト要約を生成する。
これには方法論的なテストと評価戦略が伴う。
さらに,複数の特許分野にまたがる抽象的コンポーネントのドメイン一般化(DG)を実現するために,特定のメタラーニング手法を採用した。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs [13.242188189150987]
PAP2PATは、同じ発明を記述した1.8kの特許と紙のペアからなる特許草案作成のためのオープンベンチマークである。
PAP2PATと人体ケーススタディを用いて評価したところ、LCMは紙からの情報を有効に活用できるが、それでも必要な詳細情報を提供するのに苦労している。
論文 参考訳(メタデータ) (2024-10-09T15:52:48Z) - BERT-VBD: Vietnamese Multi-Document Summarization Framework [2.2526595080231857]
新しくて有望な戦略は、抽出的および抽象的要約法の相乗的融合を含む。
本稿では,2成分パイプラインアーキテクチャを利用したベトナムのMDSフレームワークを提案する。
提案されたフレームワークは、VN-MDSデータセットで39.6%のROUGE-2スコアを獲得し、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-09-18T16:56:06Z) - Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。
NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Patent Sentiment Analysis to Highlight Patent Paragraphs [0.0]
特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。
手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。
この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。
論文 参考訳(メタデータ) (2021-11-06T13:28:29Z) - Constrained Abstractive Summarization: Preserving Factual Consistency
with Constrained Generation [93.87095877617968]
本稿では,抽象要約の現実的一貫性を保ちつつ,制約付き抽象要約(CAS)を提案する。
我々は、CASを満たすために、一般的に自己回帰生成モデルに適用される語彙制約付き復号法を採用する。
対話的要約において1つの手動制約のみを使用する場合、最大13.8ROUGE-2ゲインを観測する。
論文 参考訳(メタデータ) (2020-10-24T00:27:44Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。