論文の概要: The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation
- arxiv url: http://arxiv.org/abs/2506.08827v1
- Date: Tue, 10 Jun 2025 14:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.570071
- Title: The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation
- Title(参考訳): LLaMAの微調整が法文書中の名前付き実体抽出の幻覚に及ぼす影響
- Authors: Francisco Vargas, Alejandro González Coene, Gaston Escalante, Exequiel Lobón, Manuel Pulido,
- Abstract要約: 法律文書から交通事故に関する情報を抽出することは、保険会社のコストの定量化に不可欠である。
まず、最も関連するセグメントを識別した文書をセグメント化し、それからエンティティを抽出する2段階の手順が提案されている。
テキストセグメンテーションでは、正規表現に基づく古典的な方法と、文書をn-トークンのブロックに分割する第二のアプローチの2つの手法が比較される。
大規模言語モデル(LLaMA-2 7b, 70b, LLaMA-3 8b, GPT-4 Turbo)を適用し、選択したセグメントに対してエンティティ抽出を行う。
- 参考スコア(独自算出の注目度): 41.04830252637936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of information about traffic accidents from legal documents is crucial for quantifying insurance company costs. Extracting entities such as percentages of physical and/or psychological disability and the involved compensation amounts is a challenging process, even for experts, due to the subtle arguments and reasoning in the court decision. A two-step procedure is proposed: first, segmenting the document identifying the most relevant segments, and then extracting the entities. For text segmentation, two methodologies are compared: a classic method based on regular expressions and a second approach that divides the document into blocks of n-tokens, which are then vectorized using multilingual models for semantic searches (text-embedding-ada-002/MiniLM-L12-v2 ). Subsequently, large language models (LLaMA-2 7b, 70b, LLaMA-3 8b, and GPT-4 Turbo) are applied with prompting to the selected segments for entity extraction. For the LLaMA models, fine-tuning is performed using LoRA. LLaMA-2 7b, even with zero temperature, shows a significant number of hallucinations in extractions which are an important contention point for named entity extraction. This work shows that these hallucinations are substantially reduced after finetuning the model. The performance of the methodology based on segment vectorization and subsequent use of LLMs significantly surpasses the classic method which achieves an accuracy of 39.5%. Among open-source models, LLaMA-2 70B with finetuning achieves the highest accuracy 79.4%, surpassing its base version 61.7%. Notably, the base LLaMA-3 8B model already performs comparably to the finetuned LLaMA-2 70B model, achieving 76.6%, highlighting the rapid progress in model development. Meanwhile, GPT-4 Turbo achieves the highest accuracy at 86.1%.
- Abstract(参考訳): 法律文書から交通事故に関する情報を抽出することは、保険会社のコストの定量化に不可欠である。
身体的および/または心理的障害の割合や関連する補償金額などの実体を抽出することは、裁判所の決定における微妙な議論と推論のために専門家にとっても難しいプロセスである。
まず、最も関連するセグメントを識別した文書をセグメント化し、それからエンティティを抽出する2段階の手順が提案されている。
テキストセグメンテーションでは、正規表現に基づく古典的手法と、文書をn-tokenのブロックに分割する第二の手法を比較し、セマンティックサーチのための多言語モデルを用いてベクトル化する(text-embedding-ada-002/MiniLM-L12-v2 )。
その後、選択したセグメントに対して、大きな言語モデル(LLaMA-2 7b, 70b, LLaMA-3 8b, GPT-4 Turbo)を適用し、エンティティ抽出を行う。
LLaMAモデルでは、LoRAを使用して微調整を行う。
LLaMA-2 7bは、温度がゼロであっても、名前付き実体抽出にとって重要な競合点である抽出において、かなりの数の幻覚を示す。
この研究は、これらの幻覚はモデルを微調整した後、大幅に減少することを示している。
セグメントベクトル化とその後のLCMの使用に基づく手法の性能は、39.5%の精度を達成する古典的手法を大幅に上回っている。
オープンソースモデルの中では、LLaMA-2 70Bは79.4%の精度でベースバージョン61.7%を超えている。
特に、LLaMA-3 8Bモデルは既に微調整されたLLaMA-2 70Bモデルと互換性があり、76.6%を達成し、モデル開発の急速な進歩を浮き彫りにした。
一方、GPT-4 Turboの精度は86.1%である。
関連論文リスト
- Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。
モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。
結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T12:40:49Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts [0.86325068644655]
我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。
本稿では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T22:34:27Z) - The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。
我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文 参考訳(メタデータ) (2024-08-27T15:03:01Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。