論文の概要: Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement
- arxiv url: http://arxiv.org/abs/2310.18440v1
- Date: Fri, 27 Oct 2023 19:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:32:15.894901
- Title: Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement
- Title(参考訳): 法的推論のモデリング:人間の合意の端におけるLMアノテーション
- Authors: Rosamond Thalken, Edward H. Stiglitz, David Mimno, and Matthew Wilkens
- Abstract要約: 我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative language models (LMs) are increasingly used for document
class-prediction tasks and promise enormous improvements in cost and
efficiency. Existing research often examines simple classification tasks, but
the capability of LMs to classify on complex or specialized tasks is less well
understood. We consider a highly complex task that is challenging even for
humans: the classification of legal reasoning according to jurisprudential
philosophy. Using a novel dataset of historical United States Supreme Court
opinions annotated by a team of domain experts, we systematically test the
performance of a variety of LMs. We find that generative models perform poorly
when given instructions (i.e. prompts) equal to the instructions presented to
human annotators through our codebook. Our strongest results derive from
fine-tuning models on the annotated dataset; the best performing model is an
in-domain model, LEGAL-BERT. We apply predictions from this fine-tuned model to
study historical trends in jurisprudence, an exercise that both aligns with
prominent qualitative historical accounts and points to areas of possible
refinement in those accounts. Our findings generally sound a note of caution in
the use of generative LMs on complex tasks without fine-tuning and point to the
continued relevance of human annotation-intensive classification methods.
- Abstract(参考訳): 生成言語モデル(LM)は、文書のクラス予測タスクにますます使われ、コストと効率の大幅な改善を約束します。
既存の研究では、単純な分類タスクを調べることが多いが、複雑なタスクや専門的なタスクを分類するLMの能力はあまり理解されていない。
我々は、非常に複雑なタスクであり、人間にとっても困難な課題である。法哲学に基づく法的推論の分類である。
ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新たなデータセットを用いて、様々なLMの性能を体系的にテストする。
生成モデルは、コードブックを通じて人間のアノテータに提示される命令に等しい命令(即ちプロンプト)が与えられると、性能が悪くなる。
我々の最強の結果は、アノテーション付きデータセットの微調整モデルから得られ、最も優れたパフォーマンスモデルはドメイン内モデルであるLEGAL-BERTである。
我々は,この微調整モデルを用いて,有意な定性的歴史的記述と整合し,それらの記述における改善可能性のある領域を指摘する運動である,法学における歴史的傾向の研究に応用する。
本研究は, 複雑なタスクにおけるジェネレーティブ LM の使用について, 微調整を伴わずに注意を喚起し, ヒトのアノテーション集約型分類法との関連を指摘する。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Revisiting the Superficial Alignment Hypothesis [0.9831489366502302]
表面アライメント仮説(英語版)は、言語モデルの能力と知識のほとんど全てが事前訓練中に学習されていることを示唆している。
我々はこれらの主張を再検討し、微調整例の増加とともにポストトレーニングのスケーリング行動を研究する。
論文 参考訳(メタデータ) (2024-09-27T22:14:10Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Lawma: The Power of Specialization for Legal Tasks [18.45967769381101]
我々は260の法的テキスト分類タスクを研究し、ほぼ全て機械学習コミュニティに新しい。
軽量で微調整されたLlama 3モデルは、通常2桁のパーセンテージポイントで、ほぼ全てのタスクにおいてGPT-4をはるかに上回る。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
論文 参考訳(メタデータ) (2024-07-23T16:23:04Z) - Applicability of Large Language Models and Generative Models for Legal Case Judgement Summarization [5.0645491201288495]
近年,抽象的な要約モデルやLarge Language Model (LLM) などの生成モデルが広く普及している。
本稿では,判例判断要約におけるそのようなモデルの適用性について検討する。
論文 参考訳(メタデータ) (2024-07-06T04:49:40Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。