論文の概要: Lawma: The Power of Specialization for Legal Tasks
- arxiv url: http://arxiv.org/abs/2407.16615v1
- Date: Tue, 23 Jul 2024 16:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-24 16:36:00.387361
- Title: Lawma: The Power of Specialization for Legal Tasks
- Title(参考訳): Lawma: 法務業務の専門化の力
- Authors: Ricardo Dominguez-Olmedo, Vedant Nanda, Rediet Abebe, Stefan Bechtold, Christoph Engel, Jens Frankenreiter, Krishna Gummadi, Moritz Hardt, Michael Livermore,
- Abstract要約: 我々は260の法的テキスト分類タスクを研究し、ほぼ全て機械学習コミュニティに新しい。
軽量で微調整されたLlama 3モデルは、通常2桁のパーセンテージポイントで、ほぼ全てのタスクにおいてGPT-4をはるかに上回る。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
- 参考スコア(独自算出の注目度): 18.45967769381101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation and classification of legal text are central components of empirical legal research. Traditionally, these tasks are often delegated to trained research assistants. Motivated by the advances in language modeling, empirical legal scholars are increasingly turning to prompting commercial models, hoping that it will alleviate the significant cost of human annotation. Despite growing use, our understanding of how to best utilize large language models for legal tasks remains limited. We conduct a comprehensive study of 260 legal text classification tasks, nearly all new to the machine learning community. Starting from GPT-4 as a baseline, we show that it has non-trivial but highly varied zero-shot accuracy, often exhibiting performance that may be insufficient for legal work. We then demonstrate that a lightly fine-tuned Llama 3 model vastly outperforms GPT-4 on almost all tasks, typically by double-digit percentage points. We find that larger models respond better to fine-tuning than smaller models. A few tens to hundreds of examples suffice to achieve high classification accuracy. Notably, we can fine-tune a single model on all 260 tasks simultaneously at a small loss in accuracy relative to having a separate model for each task. Our work points to a viable alternative to the predominant practice of prompting commercial models. For concrete legal tasks with some available labeled data, researchers are better off using a fine-tuned open-source model.
- Abstract(参考訳): 法文の注釈と分類は、実証法的研究の中心的な構成要素である。
伝統的に、これらのタスクは、しばしば訓練された研究助手に委譲される。
言語モデリングの進歩に触発されて、実証的な法学者たちは、人間のアノテーションの大幅なコストを軽減できることを期待して、商業モデルを促進する傾向にある。
使用量の増加にもかかわらず、大規模言語モデルを法的タスクに最適に利用する方法についての理解は依然として限られている。
われわれは260の法的テキスト分類タスクを包括的に研究し、ほぼ全て機械学習コミュニティにとって新しいものである。
GPT-4をベースラインとして、非自明だが非常に多様なゼロショットの精度を示し、多くの場合、法的な作業には不十分なパフォーマンスを示す。
次に、軽微調整のLlama 3モデルが、ほぼすべてのタスク(典型的には2桁のパーセンテージポイント)において、GPT-4を大幅に上回ることを示した。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
数十から数百の例は高い分類精度を達成するのに十分である。
特に、260タスクの1つのモデルを同時に微調整することは、タスク毎に別々のモデルを持つことと比較して、精度の低下を少なくすることができる。
私たちの研究は、商業モデルを推進する主要なプラクティスに代わる、実行可能な代替手段であることを示している。
ラベル付きデータの具体的な法的タスクには、微調整のオープンソースモデルを使う方がよい。
関連論文リスト
- MARRO: Multi-headed Attention for Rhetorical Role Labeling in Legal Documents [8.596233578884162]
事実、議論、最終判断といった修辞的な役割の特定は、訴訟文書の理解の中心である。
法律文書は、しばしば非構造化されており、特別な語彙を含んでいるため、従来のトランスフォーマーモデルでは理解が難しい。
本稿では,トランスフォーマーにインスパイアされたマルチヘッドアテンションを用いたマルチタスク学習モデルであるMARROを提案する。
論文 参考訳(メタデータ) (2025-03-08T08:05:20Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models [5.748694060126043]
視覚言語モデルにおける4種類の識別実践を評価した。
特徴埋め込みの最も影響の大きい次元を除去し,FairPItheraを提案する。
FairPItheraの応用により、観測されたバイアスの最大98%が大幅に削減された。
論文 参考訳(メタデータ) (2024-09-28T22:49:22Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Automate or Assist? The Role of Computational Models in Identifying Gendered Discourse in US Capital Trial Transcripts [2.790550055247773]
本稿では,女性被告に対する米国資本裁判において,ジェンダーバイアス言語を同定する,複雑な問題に計算モデルを加えるケーススタディを提案する。
多くの典型的なNLPタスクとは異なり、数ヶ月の資本裁判で性別バイアスに注釈を付けることは複雑であり、多くの個人による判断が要求される。
この経験は、専門家を複雑なアノテーションの計算モデルに置き換えることが非現実的で望ましくないことを示唆している。
論文 参考訳(メタデータ) (2024-07-17T11:30:04Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains [19.814974042343028]
文ラベリングタスクのコンテキスト内概念ガイドラインに従うための命令調整型言語モデルの能力について検討する。
以上の結果から,概念定義はタスク性能に一貫して寄与するが,実際のコンテキスト下での作業能力に制限があるのは大規模モデルのみであることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T05:11:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Unlocking Practical Applications in Legal Domain: Evaluation of GPT for
Zero-Shot Semantic Annotation of Legal Texts [0.0]
我々は、短いテキストスニペットのセマンティックアノテーションを実行するための、最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価する。
その結果、GPTモデルは様々な種類の文書のゼロショット設定において驚くほどよく機能することがわかった。
論文 参考訳(メタデータ) (2023-05-08T01:55:53Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Interpretable Low-Resource Legal Decision Making [17.734489612020994]
本稿では,法的文書に有効であることを示す手法である,モデルに依存しない解釈可能な中間層を提案する。
カリキュラム学習戦略を用いて、弱教師付き学習を活用し、深層学習モデルの性能向上を効果的に実証する。
論文 参考訳(メタデータ) (2022-01-01T20:34:35Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。