論文の概要: SteuerLLM: Local specialized large language model for German tax law analysis
- arxiv url: http://arxiv.org/abs/2602.11081v1
- Date: Wed, 11 Feb 2026 17:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.264317
- Title: SteuerLLM: Local specialized large language model for German tax law analysis
- Title(参考訳): SteuerLLM:ドイツ税法分析のための地域特化大規模言語モデル
- Authors: Sebastian Wind, Jeta Sopa, Laurin Schmid, Quirin Jackl, Sebastian Kiefer, Fei Wu, Martin Mayr, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: 大規模言語モデル(LLM)は、強い一般的な推論と言語理解を示すが、その性能は厳格な形式規則によって支配される領域で低下する。
我々は、ドイツの大学税法試験から派生した最初のオープンベンチマークであるSteuerExを作成した。
我々は、大規模な合成データセットに基づいて訓練されたドイツ税法のためのドメイン適応LLMであるSteuerLLMを提案する。
- 参考スコア(独自算出の注目度): 8.82402339973647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong general reasoning and language understanding, yet their performance degrades in domains governed by strict formal rules, precise terminology, and legally binding structure. Tax law exemplifies these challenges, as correct answers require exact statutory citation, structured legal argumentation, and numerical accuracy under rigid grading schemes. We algorithmically generate SteuerEx, the first open benchmark derived from authentic German university tax law examinations. SteuerEx comprises 115 expert-validated examination questions spanning six core tax law domains and multiple academic levels, and employs a statement-level, partial-credit evaluation framework that closely mirrors real examination practice. We further present SteuerLLM, a domain-adapted LLM for German tax law trained on a large-scale synthetic dataset generated from authentic examination material using a controlled retrieval-augmented pipeline. SteuerLLM (28B parameters) consistently outperforms general-purpose instruction-tuned models of comparable size and, in several cases, substantially larger systems, demonstrating that domain-specific data and architectural adaptation are more decisive than parameter scale for performance on realistic legal reasoning tasks. All benchmark data, training datasets, model weights, and evaluation code are released openly to support reproducible research in domain-specific legal artificial intelligence. A web-based demo of SteuerLLM is available at https://steuerllm.i5.ai.fau.de.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強い一般的な推論と言語理解を示すが、その性能は厳密な形式規則、正確な用語、法的拘束構造によって支配される領域で低下する。
税法は、正確な法的な引用、構造化された法的議論、厳格な格付けスキームの下での数値的正確性を必要とするため、これらの課題を実証している。
我々は、ドイツの大学税法試験から派生した最初のオープンベンチマークであるSteuerExをアルゴリズムで生成する。
SteuerExは6つの中核税法ドメインと複数の学術レベルにまたがる115の専門家公認試験質問で構成されており、実際の試験の実践を忠実に反映した声明レベルの部分クレディット評価フレームワークを使用している。
さらに,制御された検索拡張パイプラインを用いて,認証試験材料から生成された大規模合成データセットに基づいて訓練されたドイツ税法用ドメイン適応LLMであるSteuerLLMについて述べる。
SteuerLLM (28Bパラメータ) は、同等の大きさの汎用的な命令調整モデルよりも一貫して優れており、場合によっては、ドメイン固有のデータとアーキテクチャ適応が、現実的な法的推論タスクのパフォーマンスのパラメータスケールよりも決定的であることを証明している。
すべてのベンチマークデータ、トレーニングデータセット、モデルウェイト、評価コードはすべて、ドメイン固有の法的人工知能における再現可能な研究をサポートするために、公開リリースされている。
SteuerLLMのWebベースのデモはhttps://steuerllm.i5.ai.fau.deで公開されている。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。
データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文 参考訳(メタデータ) (2026-01-23T23:41:46Z) - An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software [7.672965856139587]
大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束している。
本稿では,米国連邦政府の税制改革を事例として,法的に重要なソフトウェアを開発するためのエージェント的アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-16T19:13:26Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - Using Large Language Models for Legal Decision-Making in Austrian Value-Added Tax Law: An Experimental Study [0.0]
本稿では,オーストリアと欧州連合の付加価値税法(VAT)の枠組みにおいて,大規模言語モデル(LLM)の法的意思決定を支援する能力について実験的に評価する。
論文 参考訳(メタデータ) (2025-07-11T10:19:56Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Technical Challenges in Maintaining Tax Prep Software with Large Language Models [6.419602857618507]
我々は、LLM(Large Language Models)を活用した技術的課題を特定し、理解し、対処することに注力する。
我々の研究は、ChatGPTとLlamaを利用してIRS出版物からコード差分を忠実に抽出する技術的課題を特定し、理解し、対処することに焦点を当てています。
論文 参考訳(メタデータ) (2025-04-25T21:00:20Z) - Taxation Perspectives from Large Language Models: A Case Study on Additional Tax Penalties [5.185522256407782]
付加的な税罰の正当性を予測するためのLCMの能力を評価するために設計された新しいベンチマークPLATを紹介する。
6つの LLM を用いて行った実験では,その基礎となる能力は限定的であり,特に包括的理解を必要とする矛盾する問題に対処する場合に限られていることが判明した。
論文 参考訳(メタデータ) (2025-03-05T12:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。