論文の概要: Lawma: The Power of Specialization for Legal Tasks
- arxiv url: http://arxiv.org/abs/2407.16615v1
- Date: Tue, 23 Jul 2024 16:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:36:00.387361
- Title: Lawma: The Power of Specialization for Legal Tasks
- Title(参考訳): Lawma: 法務業務の専門化の力
- Authors: Ricardo Dominguez-Olmedo, Vedant Nanda, Rediet Abebe, Stefan Bechtold, Christoph Engel, Jens Frankenreiter, Krishna Gummadi, Moritz Hardt, Michael Livermore,
- Abstract要約: 我々は260の法的テキスト分類タスクを研究し、ほぼ全て機械学習コミュニティに新しい。
軽量で微調整されたLlama 3モデルは、通常2桁のパーセンテージポイントで、ほぼ全てのタスクにおいてGPT-4をはるかに上回る。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
- 参考スコア(独自算出の注目度): 18.45967769381101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation and classification of legal text are central components of empirical legal research. Traditionally, these tasks are often delegated to trained research assistants. Motivated by the advances in language modeling, empirical legal scholars are increasingly turning to prompting commercial models, hoping that it will alleviate the significant cost of human annotation. Despite growing use, our understanding of how to best utilize large language models for legal tasks remains limited. We conduct a comprehensive study of 260 legal text classification tasks, nearly all new to the machine learning community. Starting from GPT-4 as a baseline, we show that it has non-trivial but highly varied zero-shot accuracy, often exhibiting performance that may be insufficient for legal work. We then demonstrate that a lightly fine-tuned Llama 3 model vastly outperforms GPT-4 on almost all tasks, typically by double-digit percentage points. We find that larger models respond better to fine-tuning than smaller models. A few tens to hundreds of examples suffice to achieve high classification accuracy. Notably, we can fine-tune a single model on all 260 tasks simultaneously at a small loss in accuracy relative to having a separate model for each task. Our work points to a viable alternative to the predominant practice of prompting commercial models. For concrete legal tasks with some available labeled data, researchers are better off using a fine-tuned open-source model.
- Abstract(参考訳): 法文の注釈と分類は、実証法的研究の中心的な構成要素である。
伝統的に、これらのタスクは、しばしば訓練された研究助手に委譲される。
言語モデリングの進歩に触発されて、実証的な法学者たちは、人間のアノテーションの大幅なコストを軽減できることを期待して、商業モデルを促進する傾向にある。
使用量の増加にもかかわらず、大規模言語モデルを法的タスクに最適に利用する方法についての理解は依然として限られている。
われわれは260の法的テキスト分類タスクを包括的に研究し、ほぼ全て機械学習コミュニティにとって新しいものである。
GPT-4をベースラインとして、非自明だが非常に多様なゼロショットの精度を示し、多くの場合、法的な作業には不十分なパフォーマンスを示す。
次に、軽微調整のLlama 3モデルが、ほぼすべてのタスク(典型的には2桁のパーセンテージポイント)において、GPT-4を大幅に上回ることを示した。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
数十から数百の例は高い分類精度を達成するのに十分である。
特に、260タスクの1つのモデルを同時に微調整することは、タスク毎に別々のモデルを持つことと比較して、精度の低下を少なくすることができる。
私たちの研究は、商業モデルを推進する主要なプラクティスに代わる、実行可能な代替手段であることを示している。
ラベル付きデータの具体的な法的タスクには、微調整のオープンソースモデルを使う方がよい。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models [5.748694060126043]
視覚言語モデルにおける4種類の識別実践を評価した。
特徴埋め込みの最も影響の大きい次元を除去し,FairPItheraを提案する。
FairPItheraの応用により、観測されたバイアスの最大98%が大幅に削減された。
論文 参考訳(メタデータ) (2024-09-28T22:49:22Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains [19.814974042343028]
文ラベリングタスクのコンテキスト内概念ガイドラインに従うための命令調整型言語モデルの能力について検討する。
以上の結果から,概念定義はタスク性能に一貫して寄与するが,実際のコンテキスト下での作業能力に制限があるのは大規模モデルのみであることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T05:11:26Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。