論文の概要: What Are the Facts? Automated Extraction of Court-Established Facts from Criminal-Court Opinions
- arxiv url: http://arxiv.org/abs/2511.05320v1
- Date: Fri, 07 Nov 2025 15:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.811597
- Title: What Are the Facts? Automated Extraction of Court-Established Facts from Criminal-Court Opinions
- Title(参考訳): ファクトとは何か : 刑事・裁判所の意見から裁判所設置ファクトを自動抽出する
- Authors: Klára Bendová, Tomáš Knap, Jan Černý, Vojtěch Pour, Jaromir Savelka, Ivana Kvapilíková, Jakub Drápal,
- Abstract要約: 本研究では,スロバキアの公用裁判所決定から記述を抽出する可能性について検討した。
検索には正規表現と大規模言語モデルという2つの異なるアプローチを用いる。
法学生による評価では、どちらの手法も約90%のケースでヒトのアノテーションと一致していた。
- 参考スコア(独自算出の注目度): 0.19544534628180865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Criminal justice administrative data contain only a limited amount of information about the committed offense. However, there is an unused source of extensive information in continental European courts' decisions: descriptions of criminal behaviors in verdicts by which offenders are found guilty. In this paper, we study the feasibility of extracting these descriptions from publicly available court decisions from Slovakia. We use two different approaches for retrieval: regular expressions and large language models (LLMs). Our baseline was a simple method employing regular expressions to identify typical words occurring before and after the description. The advanced regular expression approach further focused on "sparing" and its normalization (insertion of spaces between individual letters), typical for delineating the description. The LLM approach involved prompting the Gemini Flash 2.0 model to extract the descriptions using predefined instructions. Although the baseline identified descriptions in only 40.5% of verdicts, both methods significantly outperformed it, achieving 97% with advanced regular expressions and 98.75% with LLMs, and 99.5% when combined. Evaluation by law students showed that both advanced methods matched human annotations in about 90% of cases, compared to just 34.5% for the baseline. LLMs fully matched human-labeled descriptions in 91.75% of instances, and a combination of advanced regular expressions with LLMs reached 92%.
- Abstract(参考訳): 刑事司法管理データには、犯罪に関する限られた量の情報しか含まれていない。
しかし、ヨーロッパ大陸の裁判所の判断には、犯罪者が有罪と判断された判決における犯罪行為の記述という、未使用の情報源が存在している。
本稿では,スロバキアの公用裁判所決定からこれらの記述を抽出する可能性について検討する。
正規表現と大言語モデル(LLM)の2つの異なる手法を用いて検索を行う。
我々のベースラインは、記述前後に発生する典型的な単語を特定するために正規表現を用いる単純な方法であった。
高度な正規表現アプローチは、記述を記述するために典型的な「スパーリング」とその正規化(個々の文字間の空間の挿入)に焦点を当てた。
LLMのアプローチには、事前に定義された命令を使って記述を抽出するGemini Flash 2.0モデルの導入が含まれていた。
判定基準は40.5%に過ぎなかったが、どちらの方法も顕著に上回り、高度な正規表現で97%、LLMで98.75%、合計で99.5%となった。
法学生による評価では、両方の高度な手法が人間のアノテーションとほぼ90%のケースで一致し、ベースラインは34.5%に過ぎなかった。
LLMは91.75%のインスタンスで人間のラベルによる記述と完全に一致し、LSMと高度な正規表現の組み合わせは92%に達した。
関連論文リスト
- LASER: An LLM-based ASR Scoring and Evaluation Rubric [28.789482863420442]
本稿では,LLMのテキスト内学習能力を活用したLLMに基づくスコアリング・レーザーを提案する。
Gemini 2.5 Proを用いたヒンディー語ルーリックスコアは、人間のアノテーションと94%という非常に高い相関スコアを得た。
Llama 3は、参照およびASR予測から導かれるワードペア例に基づいて微調整され、どの種類のペナルティを89%近い精度で適用すべきかを予測することができる。
論文 参考訳(メタデータ) (2025-10-08T18:37:06Z) - Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文 参考訳(メタデータ) (2025-10-08T05:17:33Z) - A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments [22.76776244036282]
言語モデル(LM)の文法的知識は、言語的最小対のベンチマークを用いてしばしば測定される。
最近の大規模言語モデル(LLM)は、プロンプトによってタスクを実行するように訓練されているため、それらが割り当てる生の確率は文法的知識を完全に反映していないかもしれない。
本研究は, プロンプトとテンプレートを用いて, LLMからより正確な判断を導出する試みである。
論文 参考訳(メタデータ) (2024-08-19T01:53:47Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。