Fugu-MT 論文翻訳(概要): The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation

論文の概要: The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation

arxiv url: http://arxiv.org/abs/2506.08827v1
Date: Tue, 10 Jun 2025 14:17:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:42.570071
Title: The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation
Title（参考訳）: LLaMAの微調整が法文書中の名前付き実体抽出の幻覚に及ぼす影響
Authors: Francisco Vargas, Alejandro González Coene, Gaston Escalante, Exequiel Lobón, Manuel Pulido,
Abstract要約: 法律文書から交通事故に関する情報を抽出することは、保険会社のコストの定量化に不可欠である。まず、最も関連するセグメントを識別した文書をセグメント化し、それからエンティティを抽出する2段階の手順が提案されている。テキストセグメンテーションでは、正規表現に基づく古典的な方法と、文書をn-トークンのブロックに分割する第二のアプローチの2つの手法が比較される。大規模言語モデル(LLaMA-2 7b, 70b, LLaMA-3 8b, GPT-4 Turbo)を適用し、選択したセグメントに対してエンティティ抽出を行う。
参考スコア（独自算出の注目度）: 41.04830252637936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The extraction of information about traffic accidents from legal documents is crucial for quantifying insurance company costs. Extracting entities such as percentages of physical and/or psychological disability and the involved compensation amounts is a challenging process, even for experts, due to the subtle arguments and reasoning in the court decision. A two-step procedure is proposed: first, segmenting the document identifying the most relevant segments, and then extracting the entities. For text segmentation, two methodologies are compared: a classic method based on regular expressions and a second approach that divides the document into blocks of n-tokens, which are then vectorized using multilingual models for semantic searches (text-embedding-ada-002/MiniLM-L12-v2 ). Subsequently, large language models (LLaMA-2 7b, 70b, LLaMA-3 8b, and GPT-4 Turbo) are applied with prompting to the selected segments for entity extraction. For the LLaMA models, fine-tuning is performed using LoRA. LLaMA-2 7b, even with zero temperature, shows a significant number of hallucinations in extractions which are an important contention point for named entity extraction. This work shows that these hallucinations are substantially reduced after finetuning the model. The performance of the methodology based on segment vectorization and subsequent use of LLMs significantly surpasses the classic method which achieves an accuracy of 39.5%. Among open-source models, LLaMA-2 70B with finetuning achieves the highest accuracy 79.4%, surpassing its base version 61.7%. Notably, the base LLaMA-3 8B model already performs comparably to the finetuned LLaMA-2 70B model, achieving 76.6%, highlighting the rapid progress in model development. Meanwhile, GPT-4 Turbo achieves the highest accuracy at 86.1%.
Abstract（参考訳）: 法律文書から交通事故に関する情報を抽出することは、保険会社のコストの定量化に不可欠である。身体的および/または心理的障害の割合や関連する補償金額などの実体を抽出することは、裁判所の決定における微妙な議論と推論のために専門家にとっても難しいプロセスである。まず、最も関連するセグメントを識別した文書をセグメント化し、それからエンティティを抽出する2段階の手順が提案されている。テキストセグメンテーションでは、正規表現に基づく古典的手法と、文書をn-tokenのブロックに分割する第二の手法を比較し、セマンティックサーチのための多言語モデルを用いてベクトル化する(text-embedding-ada-002/MiniLM-L12-v2 )。その後、選択したセグメントに対して、大きな言語モデル(LLaMA-2 7b, 70b, LLaMA-3 8b, GPT-4 Turbo)を適用し、エンティティ抽出を行う。 LLaMAモデルでは、LoRAを使用して微調整を行う。 LLaMA-2 7bは、温度がゼロであっても、名前付き実体抽出にとって重要な競合点である抽出において、かなりの数の幻覚を示す。この研究は、これらの幻覚はモデルを微調整した後、大幅に減少することを示している。セグメントベクトル化とその後のLCMの使用に基づく手法の性能は、39.5%の精度を達成する古典的手法を大幅に上回っている。オープンソースモデルの中では、LLaMA-2 70Bは79.4%の精度でベースバージョン61.7%を超えている。特に、LLaMA-3 8Bモデルは既に微調整されたLLaMA-2 70Bモデルと互換性があり、76.6%を達成し、モデル開発の急速な進歩を浮き彫りにした。一方、GPT-4 Turboの精度は86.1%である。

関連論文リスト

Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文参考訳（メタデータ） (2025-03-18T07:44:49Z)
Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-19T12:40:49Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts [0.86325068644655]
我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。本稿では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
論文参考訳（メタデータ） (2024-10-24T22:34:27Z)
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文参考訳（メタデータ） (2024-08-27T15:03:01Z)
TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2024-06-11T11:40:12Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。