論文の概要: Large Language Model for Extracting Complex Contract Information in Industrial Scenes
- arxiv url: http://arxiv.org/abs/2507.06539v2
- Date: Thu, 10 Jul 2025 02:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.091305
- Title: Large Language Model for Extracting Complex Contract Information in Industrial Scenes
- Title(参考訳): 産業場面における複雑な契約情報抽出のための大規模言語モデル
- Authors: Yunyang Cao, Yanjun Li, Silong Dai,
- Abstract要約: GPT-4とGPT-3.5は、元の契約データから鍵情報を抽出するために使用される。
大規模言語モデルは高品質なデータセットに基づいて微調整される。
- 参考スコア(独自算出の注目度): 2.8174499619745017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a high-quality dataset construction method for complex contract information extraction tasks in industrial scenarios and fine-tunes a large language model based on this dataset. Firstly, cluster analysis is performed on industrial contract texts, and GPT-4 and GPT-3.5 are used to extract key information from the original contract data, obtaining high-quality data annotations. Secondly, data augmentation is achieved by constructing new texts, and GPT-3.5 generates unstructured contract texts from randomly combined keywords, improving model robustness. Finally, the large language model is fine-tuned based on the high-quality dataset. Experimental results show that the model achieves excellent overall performance while ensuring high field recall and precision and considering parsing efficiency. LoRA, data balancing, and data augmentation effectively enhance model accuracy and robustness. The proposed method provides a novel and efficient solution for industrial contract information extraction tasks.
- Abstract(参考訳): 本稿では,産業シナリオにおける複雑な契約情報抽出作業のための高品質なデータセット構築手法を提案する。
まず、産業契約書上でクラスタ分析を行い、GPT-4およびGPT-3.5を用いて、原契約データから鍵情報を抽出し、高品質なデータアノテーションを得る。
第二に、新しいテキストを構築してデータ拡張を行い、GPT-3.5はランダムに組み合わせたキーワードから非構造化のコントラクトテキストを生成し、モデルロバスト性を向上させる。
最後に、大きな言語モデルは高品質なデータセットに基づいて微調整される。
実験結果から, 高精算精度を確保し, 解析効率を考慮しつつ, 全体的な性能が良好であることが示唆された。
LoRA、データバランシング、データ拡張により、モデルの精度と堅牢性が効果的に向上する。
提案手法は,産業契約情報抽出タスクに対して,新規かつ効率的なソリューションを提供する。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - DataTales: A Benchmark for Real-World Intelligent Data Narration [26.64184785980865]
DataTalesは、データナレーションにおける言語モデルの習熟度を評価するために設計されたベンチマークである。
本研究は,有能なデータナレーションに必要な精度と分析深度を達成する上で,言語モデルが直面する重要な課題を浮き彫りにするものである。
論文 参考訳(メタデータ) (2024-10-23T13:30:02Z) - Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - Utilizing Large Language Models for Information Extraction from Real Estate Transactions [2.0122032639916485]
本稿では,大規模言語モデルの不動産契約からの自動情報抽出への応用について検討する。
実世界のトランザクションデータセットを用いて合成コントラクトを生成した。
論文 参考訳(メタデータ) (2024-04-28T01:38:38Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - DAGAM: Data Augmentation with Generation And Modification [3.063234089519162]
事前訓練された言語モデルでは、モデルのサイズが非常に大きいため、不適合がしばしば発生する。
本稿では,大規模言語モデルの不適合問題を軽減するために,3つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。