論文の概要: Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement
- arxiv url: http://arxiv.org/abs/2310.18440v1
- Date: Fri, 27 Oct 2023 19:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:32:15.894901
- Title: Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement
- Title(参考訳): 法的推論のモデリング:人間の合意の端におけるLMアノテーション
- Authors: Rosamond Thalken, Edward H. Stiglitz, David Mimno, and Matthew Wilkens
- Abstract要約: 我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative language models (LMs) are increasingly used for document
class-prediction tasks and promise enormous improvements in cost and
efficiency. Existing research often examines simple classification tasks, but
the capability of LMs to classify on complex or specialized tasks is less well
understood. We consider a highly complex task that is challenging even for
humans: the classification of legal reasoning according to jurisprudential
philosophy. Using a novel dataset of historical United States Supreme Court
opinions annotated by a team of domain experts, we systematically test the
performance of a variety of LMs. We find that generative models perform poorly
when given instructions (i.e. prompts) equal to the instructions presented to
human annotators through our codebook. Our strongest results derive from
fine-tuning models on the annotated dataset; the best performing model is an
in-domain model, LEGAL-BERT. We apply predictions from this fine-tuned model to
study historical trends in jurisprudence, an exercise that both aligns with
prominent qualitative historical accounts and points to areas of possible
refinement in those accounts. Our findings generally sound a note of caution in
the use of generative LMs on complex tasks without fine-tuning and point to the
continued relevance of human annotation-intensive classification methods.
- Abstract(参考訳): 生成言語モデル(LM)は、文書のクラス予測タスクにますます使われ、コストと効率の大幅な改善を約束します。
既存の研究では、単純な分類タスクを調べることが多いが、複雑なタスクや専門的なタスクを分類するLMの能力はあまり理解されていない。
我々は、非常に複雑なタスクであり、人間にとっても困難な課題である。法哲学に基づく法的推論の分類である。
ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新たなデータセットを用いて、様々なLMの性能を体系的にテストする。
生成モデルは、コードブックを通じて人間のアノテータに提示される命令に等しい命令(即ちプロンプト)が与えられると、性能が悪くなる。
我々の最強の結果は、アノテーション付きデータセットの微調整モデルから得られ、最も優れたパフォーマンスモデルはドメイン内モデルであるLEGAL-BERTである。
我々は,この微調整モデルを用いて,有意な定性的歴史的記述と整合し,それらの記述における改善可能性のある領域を指摘する運動である,法学における歴史的傾向の研究に応用する。
本研究は, 複雑なタスクにおけるジェネレーティブ LM の使用について, 微調整を伴わずに注意を喚起し, ヒトのアノテーション集約型分類法との関連を指摘する。
関連論文リスト
- Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification [1.0624606551524207]
偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。
本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。
次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
論文 参考訳(メタデータ) (2023-11-16T10:35:11Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。