論文の概要: Impacts of Continued Legal Pre-Training and IFT on LLMs' Latent Representations of Human-Defined Legal Concepts
- arxiv url: http://arxiv.org/abs/2410.12001v1
- Date: Tue, 15 Oct 2024 19:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:57.400686
- Title: Impacts of Continued Legal Pre-Training and IFT on LLMs' Latent Representations of Human-Defined Legal Concepts
- Title(参考訳): 連続した法律事前訓練とIFTがLLMの人間定義法概念の潜在表現に及ぼす影響
- Authors: Shaun Ho,
- Abstract要約: 我々は、人間定義の法的概念を含む、最近のAI & Lawから7つの異なるテキストシーケンスを調査した。
そこで,本研究では,人間の法的知識の構造に対応する新たな注意パターンを導入したかどうかを検証し,生の注意点変化パターンを可視化した。
本調査により,(1) 法的訓練の効果は, 法的概念に不均一に分散し, (2) 法的訓練で学んだ法的知識の文脈表現は, 法的概念の構造と一致しないことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper aims to offer AI & Law researchers and practitioners a more detailed understanding of whether and how continued pre-training and instruction fine-tuning (IFT) of large language models (LLMs) on legal corpora increases their utilization of human-defined legal concepts when developing global contextual representations of input sequences. We compared three models: Mistral 7B, SaulLM-7B-Base (Mistral 7B with continued pre-training on legal corpora), and SaulLM-7B-Instruct (with further IFT). This preliminary assessment examined 7 distinct text sequences from recent AI & Law literature, each containing a human-defined legal concept. We first compared the proportions of total attention the models allocated to subsets of tokens representing the legal concepts. We then visualized patterns of raw attention score alterations, evaluating whether legal training introduced novel attention patterns corresponding to structures of human legal knowledge. This inquiry revealed that (1) the impact of legal training was unevenly distributed across the various human-defined legal concepts, and (2) the contextual representations of legal knowledge learned during legal training did not coincide with structures of human-defined legal concepts. We conclude with suggestions for further investigation into the dynamics of legal LLM training.
- Abstract(参考訳): 本稿では,AIと法則の研究者や実践者が,大規模言語モデル(LLM)の言語コーパスにおける事前学習と指導の微調整(IFT)の継続が,入力シーケンスのグローバルな文脈表現を開発する上で,人間の定義した法的概念の利用量を増加させるかどうかを,より詳細に理解することを目的とする。
私たちはMistral 7B, SaulLM-7B-Base (Mistral 7Bと法定コーパスの事前トレーニングを継続) と SaulLM-7B-Instruct (さらなるIFT) の3モデルを比較した。
この予備評価は、人間定義の法的概念を含む、最近のAI & Law文学から7つの異なるテキストシーケンスを調査した。
最初に、法的な概念を表すトークンのサブセットに割り当てられたモデルの総注意率を比較した。
そこで,本研究では,人間の法的知識の構造に対応する新たな注意パターンを導入したかどうかを検証し,生の注意点変化パターンを可視化した。
本調査により,(1) 法的訓練の影響は, 様々な法的概念に不均一に分散し, (2) 法的訓練で学んだ法的知識の文脈表現は, 法的概念の構造と一致しないことが明らかとなった。
我々は、法的LLMトレーニングのダイナミクスについて、さらなる調査を行うための提案を締めくくった。
関連論文リスト
- InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling [43.243889347008455]
我々は,非専門家がストーリーテリングを通じて複雑な法的概念を学ぶのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。
そこで我々は,294の複雑な法的教義からなり,それぞれに物語と複数の選択肢の質問が伴う新たなデータセットであるLegalStoriesを紹介した。
LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。
論文 参考訳(メタデータ) (2024-02-26T20:56:06Z) - Report of the 1st Workshop on Generative AI and Law [78.62063815165968]
本報告では、生成AIと法に関する第1回ワークショップ(GenLaw)の開催状況について述べる。
コンピュータサイエンスと法学の実践者や学者の学際的なグループが集まり、ジェネレーティブAI法がもたらす技術的、教義的、政策上の課題について議論した。
論文 参考訳(メタデータ) (2023-11-11T04:13:37Z) - Enhancing Pre-Trained Language Models with Sentence Position Embeddings
for Rhetorical Roles Recognition in Legal Opinions [0.16385815610837165]
法的意見の規模は増え続けており、法的意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。
本稿では,文の位置情報に関する知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。
LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチではパラメータが少なく、計算コストが低下することを示した。
論文 参考訳(メタデータ) (2023-10-08T20:33:55Z) - Prototype-Based Interpretability for Legal Citation Prediction [16.660004925391842]
我々は、前例と立法規定の両方に関して、弁護士の思考過程と平行してタスクを設計する。
最初の実験結果から,法の専門家のフィードバックを得て,対象の引用予測を洗練する。
我々は,弁護士が使用する決定パラメータに固執しながら,高い性能を達成し,解釈可能性を高めるためのプロトタイプアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-05-25T21:40:58Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - Legal Sentiment Analysis and Opinion Mining (LSAOM): Assimilating
Advances in Autonomous AI Legal Reasoning [0.0]
法的なセンチメント分析とオピニオンマイニング(LSAOM)は、法的議論と物語の基礎となる2つの現象と行動からなる。
LSAOMの実施への取り組みは、歴史的に人間の手と認知によって行われてきた。
特に自然言語処理(NLP)と機械学習(ML)を含む人工知能(AI)の進歩は、センティメント分析とオピニオンマイニングのいずれにおいても、自動化が体系的に実行可能であることを後押ししている。
論文 参考訳(メタデータ) (2020-10-02T04:15:21Z) - Authorized and Unauthorized Practices of Law: The Role of Autonomous
Levels of AI Legal Reasoning [0.0]
法分野は、認可された法律実務(APL)と無認可の法律実務(UPL)を定義することを目指している。
本稿では,AILR自律レベルに適用する上で,APLとUPLの基盤となる重要な特徴を記述した新たなインスツルメンタルグリッドについて検討する。
論文 参考訳(メタデータ) (2020-08-19T18:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。