論文の概要: Text to Trust: Evaluating Fine-Tuning and LoRA Trade-offs in Language Models for Unfair Terms of Service Detection
- arxiv url: http://arxiv.org/abs/2510.22531v1
- Date: Sun, 26 Oct 2025 04:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.236401
- Title: Text to Trust: Evaluating Fine-Tuning and LoRA Trade-offs in Language Models for Unfair Terms of Service Detection
- Title(参考訳): 信頼へのテキスト:不公平なサービス検出のための言語モデルにおける微調整とLoRAトレードオフの評価
- Authors: Noshitha Padma Pratyusha Juttu, Sahithi Singireddy, Sravani Gona, Sujal Timilsina,
- Abstract要約: 大規模言語モデル (LLM) はテキスト理解に変化をもたらしたが、専門の法域への適応は、完全な微調整のコストによって制限されている。
本研究は、サービス規約(ToS)文書において、微調整、パラメータ効率適応(LoRA、QLoRA)、不公平な節検出のためのゼロショットプロンプト戦略を体系的に評価する。
CLAUDETTE-ToSベンチマークとMultilingual Scraper Corpusの実験では、完全な微調整が最大の精度のリコールバランスを達成する一方、LoRAベースのモデルは最大3倍のメモリコストで競合リコールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed text understanding, yet their adaptation to specialized legal domains remains constrained by the cost of full fine-tuning. This study provides a systematic evaluation of fine tuning, parameter efficient adaptation (LoRA, QLoRA), and zero-shot prompting strategies for unfair clause detection in Terms of Service (ToS) documents, a key application in legal NLP. We finetune BERT and DistilBERT, apply 4-bit Low-Rank Adaptation (LoRA) to models such as TinyLlama, LLaMA 3B/7B, and SaulLM, and evaluate GPT-4o and O-versions in zero-shot settings. Experiments on the CLAUDETTE-ToS benchmark and the Multilingual Scraper Corpus show that full fine-tuning achieves the strongest precision recall balance, while LoRA-based models provide competitive recall with up to 3x lower memory cost. These findings highlight practical design trade-offs for efficient and domain-adapted LLMs, contributing open baselines for fine-tuning research in legal text processing.
- Abstract(参考訳): 大規模言語モデル (LLM) はテキスト理解に変化をもたらしたが、専門の法域への適応は、完全な微調整のコストによって制限されている。
本研究は,厳密なチューニング,パラメータ効率適応 (LoRA, QLoRA) の体系的評価,および法的NLPにおける重要な応用であるサービス規約 (ToS) 文書における不当節検出のためのゼロショットプロンプト戦略を提供する。
BERT と DistilBERT を微調整し,TinyLlama や LLaMA 3B/7B や SaulLM などのモデルに 4-bit Low-Rank Adaptation (LoRA) を適用し,ゼロショット設定で GPT-4o と O-version を評価する。
CLAUDETTE-ToSベンチマークとMultilingual Scraper Corpusの実験では、完全な微調整が最大の精度のリコールバランスを達成する一方、LoRAベースのモデルは最大3倍のメモリコストで競合リコールを提供する。
これらの知見は、効率的なドメイン適応LLMのための実用的な設計トレードオフを浮き彫りにして、法的なテキスト処理における微調整研究のためのオープンベースラインに寄与している。
関連論文リスト
- All for law and law for all: Adaptive RAG Pipeline for Legal Research [0.8819595592190884]
Retrieval-Augmented Generation (RAG)は、テキスト生成タスクのアプローチ方法を変えました。
この作業では、以前のベースラインを改善した、新しいエンドツーエンドのRAGパイプラインを導入している。
論文 参考訳(メタデータ) (2025-08-18T17:14:03Z) - ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts [21.217188970086344]
法的なリスク分析のような専門分野における大規模言語モデル(LLM)の可能性はいまだ未解明である。
本稿では,オープンソース LLM が商用契約における条項レベルの法的リスクを特定する上で,プロプライエタリ LLM に適合するかどうかを徹底的に評価する最初のベンチマークである ContractEval を紹介する。
論文 参考訳(メタデータ) (2025-08-05T04:53:05Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。