論文の概要: Attribution analysis of legal language as used by LLM
- arxiv url: http://arxiv.org/abs/2501.17330v1
- Date: Tue, 28 Jan 2025 22:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 22:32:42.485602
- Title: Attribution analysis of legal language as used by LLM
- Title(参考訳): LLMが用いた法的言語の属性分析
- Authors: Richard K. Belew,
- Abstract要約: 公開可能な2つの法的データセット、より単純な二項分類タスク、および保持者の司法判断を特定するためのより精巧な複数の選択タスクを使用します。
すべてのモデルがケースホールドタスクからテスト例を正しく分類しているのに対して、他の例は1つ、モデル、属性のみによってのみ識別できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three publicly-available LLM specifically designed for legal tasks have been implemented and shown that classification accuracy can benefit from training over legal corpora, but why and how? Here we use two publicly-available legal datasets, a simpler binary classification task of ``overruling'' texts, and a more elaborate multiple choice task identifying ``holding'' judicial decisions. We report on experiments contrasting the legal LLM and a generic BERT model for comparison, against both datasets. We use integrated gradient attribution techniques to impute ``causes'' of variation in the models' perfomance, and characterize them in terms of the tokenizations each use. We find that while all models can correctly classify some test examples from the casehold task, other examples can only be identified by only one, model, and attribution can be used to highlight the reasons for this. We find that differential behavior of the models' tokenizers accounts for most of the difference and analyze these differences in terms of the legal language they process. Frequency analysis of tokens generated by dataset texts, combined with use of known ``stop word'' lists, allow identification of tokens that are clear signifiers of legal topics.
- Abstract(参考訳): 法的なタスクに特化して設計された3つのLLMが実装され、分類精度が法的なコーパスのトレーニングの恩恵を受けることが示されている。
ここでは、公開可能な2つの法的データセット、‘overruling’テキストのより単純なバイナリ分類タスク、‘holding’の司法判断を識別するより詳細な複数の選択タスクを使用します。
両データセットに対して,法的なLLMと一般的なBERTモデルを比較した実験を報告する。
我々は、モデルのパーファマンスの変化の `` causes''' をインプットするために、統合的な勾配属性技術を使用し、それらが使用するトークン化の観点で特徴付ける。
すべてのモデルがケースホールドタスクからテスト例を正しく分類できるのに対して、他の例は1つ、モデル、属性のみによってのみ識別できる。
モデルのトークン化器の差分挙動は、ほとんどの違いを考慮し、それらの差分を、それらが処理する法的言語の観点から分析する。
データセットテキストから生成されたトークンの頻度分析と既知の 'stop word'' リストの使用により、法的トピックの明確な記号であるトークンの識別が可能になる。
関連論文リスト
- Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts [0.6554326244334866]
Legal-LLMはLarge Language Models (LLM) の命令追従機能を利用する新しいアプローチである。
提案手法は,マイクロF1とマクロF1スコアを用いて,POSTURE50KとEURLEX57Kの2つのベンチマークデータセット上で評価する。
論文 参考訳(メタデータ) (2025-04-12T18:57:04Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - In-Context Learning for Text Classification with Many Labels [34.87532045406169]
多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られているため困難である。
我々は、この制限を回避するために、事前訓練された高密度検索モデルを使用する。
我々は、コンテキスト内サンプルの数と異なるモデルスケールのパフォーマンスを分析します。
論文 参考訳(メタデータ) (2023-09-19T22:41:44Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Unlocking Practical Applications in Legal Domain: Evaluation of GPT for
Zero-Shot Semantic Annotation of Legal Texts [0.0]
我々は、短いテキストスニペットのセマンティックアノテーションを実行するための、最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価する。
その結果、GPTモデルは様々な種類の文書のゼロショット設定において驚くほどよく機能することがわかった。
論文 参考訳(メタデータ) (2023-05-08T01:55:53Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition [6.502694770864571]
Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
論文 参考訳(メタデータ) (2022-09-29T13:44:28Z) - Counterfactual Interventions Reveal the Causal Effect of Relative Clause
Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。
また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文 参考訳(メタデータ) (2021-05-14T17:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。