論文の概要: The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting
- arxiv url: http://arxiv.org/abs/2505.12837v1
- Date: Mon, 19 May 2025 08:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.484215
- Title: The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting
- Title(参考訳): 隠れ構造 - 明示的なテキストフォーマッティングによる法的文書理解の改善
- Authors: Christian Braun, Alexander Lilienbeck, Daniel Mentjukov,
- Abstract要約: 法的な契約には、人間の理解に不可欠な、本質的で意味論的に不可欠な構造(例えば、節、節)がある。
本稿では, GPT-4o と GPT-4.1 が法的問合せ課題に与える影響について検討する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal contracts possess an inherent, semantically vital structure (e.g., sections, clauses) that is crucial for human comprehension but whose impact on LLM processing remains under-explored. This paper investigates the effects of explicit input text structure and prompt engineering on the performance of GPT-4o and GPT-4.1 on a legal question-answering task using an excerpt of the CUAD. We compare model exact-match accuracy across various input formats: well-structured plain-text (human-generated from CUAD), plain-text cleaned of line breaks, extracted plain-text from Azure OCR, plain-text extracted by GPT-4o Vision, and extracted (and interpreted) Markdown (MD) from GPT-4o Vision. To give an indication of the impact of possible prompt engineering, we assess the impact of shifting task instructions to the system prompt and explicitly informing the model about the structured nature of the input. Our findings reveal that GPT-4o demonstrates considerable robustness to variations in input structure, but lacks in overall performance. Conversely, GPT-4.1's performance is markedly sensitive; poorly structured inputs yield suboptimal results (but identical with GPT-4o), while well-structured formats (original CUAD text, GPT-4o Vision text and GPT-4o MD) improve exact-match accuracy by ~20 percentage points. Optimizing the system prompt to include task details and an advisory about structured input further elevates GPT-4.1's accuracy by an additional ~10-13 percentage points, with Markdown ultimately achieving the highest performance under these conditions (79 percentage points overall exact-match accuracy). This research empirically demonstrates that while newer models exhibit greater resilience, careful input structuring and strategic prompt design remain critical for optimizing the performance of LLMs, and can significantly affect outcomes in high-stakes legal applications.
- Abstract(参考訳): 法的な契約には、人間の理解に不可欠であるが、LLM処理に影響を及ぼす固有の意味論的に不可欠な構造(例:節、節)がある。
本稿では, CUADの抜粋を用いて, GPT-4o と GPT-4.1 が法的問合せ課題に与える影響について検討する。
GPT-4o Visionから抽出したプレーンテキストと,GPT-4o Visionから抽出したマークダウン(MD)を抽出した。
そこで本研究では,システムにタスク命令を移すことによる影響を即時的に評価し,入力の構造化された性質についてモデルに明示的に通知する。
以上の結果から, GPT-4oは入力構造の変化に対してかなりの堅牢性を示すが, 全体的な性能に欠けることがわかった。
逆に、GPT-4.1の性能は著しく敏感であり、構造化されていない入力は最適以下の結果(GPT-4oと同一)を得る一方、構造化されたフォーマット(CUADテキスト、GPT-4o Visionテキスト、GPT-4o MD)は精度を約20ポイント向上する。
タスクの詳細と構造化入力に関するアドバイザリを最適化することで、GPT-4.1の精度はさらに10~13ポイント向上し、Markdownは最終的にこれらの条件下で最高のパフォーマンスを達成する(全体の79ポイント)。
この研究は、新しいモデルではよりレジリエンスが向上する一方で、注意深い入力構造と戦略的急激な設計がLLMの性能を最適化する上で重要なままであり、高い法的応用における結果に大きな影響を与えることを実証的に示している。
関連論文リスト
- Notes on Applicability of GPT-4 to Document Understanding [0.0]
文書理解分野に関するすべての公開GPT-4ファミリーモデルを評価する。
GPT-4 Vision Turboは,外部のOCRエンジンで認識されたテキストと入力上の文書イメージの両方を提供する場合,テキストのみのモデルでは良好な結果が得られない。
論文 参考訳(メタデータ) (2024-05-28T17:59:53Z) - Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文 参考訳(メタデータ) (2023-11-14T04:33:49Z) - Can GPT-4 Support Analysis of Textual Data in Tasks Requiring Highly
Specialized Domain Expertise? [0.8924669503280334]
GPT-4は、アノテーションガイドラインによって誘導され、十分に訓練された法学生のアノテーションと同等に実行される。
ガイドラインでは,GPT-4の予測を解析し,欠陥を識別・緩和する方法を実証した。
論文 参考訳(メタデータ) (2023-06-24T08:48:24Z) - Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents [2.246222223318928]
本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-05-17T17:18:26Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。