論文の概要: SteuerLLM: Local specialized large language model for German tax law analysis
- arxiv url: http://arxiv.org/abs/2602.11081v1
- Date: Wed, 11 Feb 2026 17:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.264317
- Title: SteuerLLM: Local specialized large language model for German tax law analysis
- Title(参考訳): SteuerLLM:ドイツ税法分析のための地域特化大規模言語モデル
- Authors: Sebastian Wind, Jeta Sopa, Laurin Schmid, Quirin Jackl, Sebastian Kiefer, Fei Wu, Martin Mayr, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: 大規模言語モデル(LLM)は、強い一般的な推論と言語理解を示すが、その性能は厳格な形式規則によって支配される領域で低下する。
我々は、ドイツの大学税法試験から派生した最初のオープンベンチマークであるSteuerExを作成した。
我々は、大規模な合成データセットに基づいて訓練されたドイツ税法のためのドメイン適応LLMであるSteuerLLMを提案する。
- 参考スコア(独自算出の注目度): 8.82402339973647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong general reasoning and language understanding, yet their performance degrades in domains governed by strict formal rules, precise terminology, and legally binding structure. Tax law exemplifies these challenges, as correct answers require exact statutory citation, structured legal argumentation, and numerical accuracy under rigid grading schemes. We algorithmically generate SteuerEx, the first open benchmark derived from authentic German university tax law examinations. SteuerEx comprises 115 expert-validated examination questions spanning six core tax law domains and multiple academic levels, and employs a statement-level, partial-credit evaluation framework that closely mirrors real examination practice. We further present SteuerLLM, a domain-adapted LLM for German tax law trained on a large-scale synthetic dataset generated from authentic examination material using a controlled retrieval-augmented pipeline. SteuerLLM (28B parameters) consistently outperforms general-purpose instruction-tuned models of comparable size and, in several cases, substantially larger systems, demonstrating that domain-specific data and architectural adaptation are more decisive than parameter scale for performance on realistic legal reasoning tasks. All benchmark data, training datasets, model weights, and evaluation code are released openly to support reproducible research in domain-specific legal artificial intelligence. A web-based demo of SteuerLLM is available at https://steuerllm.i5.ai.fau.de.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強い一般的な推論と言語理解を示すが、その性能は厳密な形式規則、正確な用語、法的拘束構造によって支配される領域で低下する。
税法は、正確な法的な引用、構造化された法的議論、厳格な格付けスキームの下での数値的正確性を必要とするため、これらの課題を実証している。
我々は、ドイツの大学税法試験から派生した最初のオープンベンチマークであるSteuerExをアルゴリズムで生成する。
SteuerExは6つの中核税法ドメインと複数の学術レベルにまたがる115の専門家公認試験質問で構成されており、実際の試験の実践を忠実に反映した声明レベルの部分クレディット評価フレームワークを使用している。
さらに,制御された検索拡張パイプラインを用いて,認証試験材料から生成された大規模合成データセットに基づいて訓練されたドイツ税法用ドメイン適応LLMであるSteuerLLMについて述べる。
SteuerLLM (28Bパラメータ) は、同等の大きさの汎用的な命令調整モデルよりも一貫して優れており、場合によっては、ドメイン固有のデータとアーキテクチャ適応が、現実的な法的推論タスクのパフォーマンスのパラメータスケールよりも決定的であることを証明している。
すべてのベンチマークデータ、トレーニングデータセット、モデルウェイト、評価コードはすべて、ドメイン固有の法的人工知能における再現可能な研究をサポートするために、公開リリースされている。
SteuerLLMのWebベースのデモはhttps://steuerllm.i5.ai.fau.deで公開されている。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。
データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文 参考訳(メタデータ) (2026-01-23T23:41:46Z) - An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software [7.672965856139587]
大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束している。
本稿では,米国連邦政府の税制改革を事例として,法的に重要なソフトウェアを開発するためのエージェント的アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-16T19:13:26Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - Using Large Language Models for Legal Decision-Making in Austrian Value-Added Tax Law: An Experimental Study [0.0]
本稿では,オーストリアと欧州連合の付加価値税法(VAT)の枠組みにおいて,大規模言語モデル(LLM)の法的意思決定を支援する能力について実験的に評価する。
論文 参考訳(メタデータ) (2025-07-11T10:19:56Z) - RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Technical Challenges in Maintaining Tax Prep Software with Large Language Models [6.419602857618507]
我々は、LLM(Large Language Models)を活用した技術的課題を特定し、理解し、対処することに注力する。
我々の研究は、ChatGPTとLlamaを利用してIRS出版物からコード差分を忠実に抽出する技術的課題を特定し、理解し、対処することに焦点を当てています。
論文 参考訳(メタデータ) (2025-04-25T21:00:20Z) - Taxation Perspectives from Large Language Models: A Case Study on Additional Tax Penalties [5.185522256407782]
付加的な税罰の正当性を予測するためのLCMの能力を評価するために設計された新しいベンチマークPLATを紹介する。
6つの LLM を用いて行った実験では,その基礎となる能力は限定的であり,特に包括的理解を必要とする矛盾する問題に対処する場合に限られていることが判明した。
論文 参考訳(メタデータ) (2025-03-05T12:24:20Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。