論文の概要: Lawma: The Power of Specialization for Legal Annotation
- arxiv url: http://arxiv.org/abs/2407.16615v2
- Date: Wed, 23 Apr 2025 12:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.888841
- Title: Lawma: The Power of Specialization for Legal Annotation
- Title(参考訳): 法馬:法律注釈の特化の力
- Authors: Ricardo Dominguez-Olmedo, Vedant Nanda, Rediet Abebe, Stefan Bechtold, Christoph Engel, Jens Frankenreiter, Krishna Gummadi, Moritz Hardt, Michael Livermore,
- Abstract要約: 260の法的なアノテーションタスクからなるベンチマークであるCaselawQAを紹介する。
GPT-4.5 や Claude 3.7 Sonnet のような商用モデルは、非自明で高度に変動する精度を実現する。
次に、小型で微調整されたモデルが商用モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 18.45967769381101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation and classification of legal text are central components of empirical legal research. Traditionally, these tasks are often delegated to trained research assistants. Motivated by the advances in language modeling, empirical legal scholars are increasingly turning to prompting commercial models, hoping that it will alleviate the significant cost of human annotation. Despite growing use, our understanding of how to best utilize large language models for legal annotation remains limited. To bridge this gap, we introduce CaselawQA, a benchmark comprising 260 legal annotation tasks, nearly all new to the machine learning community. We demonstrate that commercial models, such as GPT-4.5 and Claude 3.7 Sonnet, achieve non-trivial yet highly variable accuracy, generally falling short of the performance required for legal work. We then demonstrate that small, lightly fine-tuned models outperform commercial models. A few hundred to a thousand labeled examples are usually enough to achieve higher accuracy. Our work points to a viable alternative to the predominant practice of prompting commercial models. For concrete legal annotation tasks with some available labeled data, researchers are likely better off using a fine-tuned open-source model.
- Abstract(参考訳): 法文の注釈と分類は、実証法的研究の中心的な構成要素である。
伝統的に、これらのタスクは、しばしば訓練された研究助手に委譲される。
言語モデリングの進歩に触発されて、実証的な法学者たちは、人間のアノテーションの大幅なコストを軽減できることを期待して、商業モデルを促進する傾向にある。
使用が増加しているにもかかわらず、法的なアノテーションとして大規模言語モデルを最大限に活用する方法についての理解は依然として限られている。
このギャップを埋めるために、260の法的なアノテーションタスクからなるベンチマークであるCaselawQAを紹介します。
GPT-4.5 や Claude 3.7 Sonnet のような商用モデルは、非自明で高度に変動する精度を実現し、一般に法的な作業に必要な性能に欠けることを示した。
次に、小型で微調整されたモデルが商用モデルより優れていることを示す。
数百から数千のラベル付きサンプルは通常、より高い精度を達成するのに十分である。
私たちの研究は、商業モデルを推進する主要なプラクティスに代わる、実行可能な代替手段であることを示している。
ラベル付きデータを使った具体的な法的アノテーションタスクのために、研究者は微調整のオープンソースモデルを使った方がよいだろう。
関連論文リスト
- MARRO: Multi-headed Attention for Rhetorical Role Labeling in Legal Documents [8.596233578884162]
事実、議論、最終判断といった修辞的な役割の特定は、訴訟文書の理解の中心である。
法律文書は、しばしば非構造化されており、特別な語彙を含んでいるため、従来のトランスフォーマーモデルでは理解が難しい。
本稿では,トランスフォーマーにインスパイアされたマルチヘッドアテンションを用いたマルチタスク学習モデルであるMARROを提案する。
論文 参考訳(メタデータ) (2025-03-08T08:05:20Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models [5.748694060126043]
視覚言語モデルにおける4種類の識別実践を評価した。
特徴埋め込みの最も影響の大きい次元を除去し,FairPItheraを提案する。
FairPItheraの応用により、観測されたバイアスの最大98%が大幅に削減された。
論文 参考訳(メタデータ) (2024-09-28T22:49:22Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Automate or Assist? The Role of Computational Models in Identifying Gendered Discourse in US Capital Trial Transcripts [2.790550055247773]
本稿では,女性被告に対する米国資本裁判において,ジェンダーバイアス言語を同定する,複雑な問題に計算モデルを加えるケーススタディを提案する。
多くの典型的なNLPタスクとは異なり、数ヶ月の資本裁判で性別バイアスに注釈を付けることは複雑であり、多くの個人による判断が要求される。
この経験は、専門家を複雑なアノテーションの計算モデルに置き換えることが非現実的で望ましくないことを示唆している。
論文 参考訳(メタデータ) (2024-07-17T11:30:04Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains [19.814974042343028]
文ラベリングタスクのコンテキスト内概念ガイドラインに従うための命令調整型言語モデルの能力について検討する。
以上の結果から,概念定義はタスク性能に一貫して寄与するが,実際のコンテキスト下での作業能力に制限があるのは大規模モデルのみであることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T05:11:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Unlocking Practical Applications in Legal Domain: Evaluation of GPT for
Zero-Shot Semantic Annotation of Legal Texts [0.0]
我々は、短いテキストスニペットのセマンティックアノテーションを実行するための、最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価する。
その結果、GPTモデルは様々な種類の文書のゼロショット設定において驚くほどよく機能することがわかった。
論文 参考訳(メタデータ) (2023-05-08T01:55:53Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Interpretable Low-Resource Legal Decision Making [17.734489612020994]
本稿では,法的文書に有効であることを示す手法である,モデルに依存しない解釈可能な中間層を提案する。
カリキュラム学習戦略を用いて、弱教師付き学習を活用し、深層学習モデルの性能向上を効果的に実証する。
論文 参考訳(メタデータ) (2022-01-01T20:34:35Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。