論文の概要: An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software
- arxiv url: http://arxiv.org/abs/2509.13471v1
- Date: Tue, 16 Sep 2025 19:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.621611
- Title: An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software
- Title(参考訳): 法的批判的ソフトウェアに対するLLMエージェントアプローチ--税前ソフトウェアを事例として
- Authors: Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束している。
本稿では,米国連邦政府の税制改革を事例として,法的に重要なソフトウェアを開発するためのエージェント的アプローチを提案する。
- 参考スコア(独自算出の注目度): 7.672965856139587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for translating natural-language statutes into executable logic, but reliability in legally critical settings remains challenging due to ambiguity and hallucinations. We present an agentic approach for developing legal-critical software, using U.S. federal tax preparation as a case study. The key challenge is test-case generation under the oracle problem, where correct outputs require interpreting law. Building on metamorphic testing, we introduce higher-order metamorphic relations that compare system outputs across structured shifts among similar individuals. Because authoring such relations is tedious and error-prone, we use an LLM-driven, role-based framework to automate test generation and code synthesis. We implement a multi-agent system that translates tax code into executable software and incorporates a metamorphic-testing agent that searches for counterexamples. In experiments, our framework using a smaller model (GPT-4o-mini) achieves a worst-case pass rate of 45%, outperforming frontier models (GPT-4o and Claude 3.5, 9-15%) on complex tax-code tasks. These results support agentic LLM methodologies as a path to robust, trustworthy legal-critical software from natural-language specifications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束しているが、曖昧さと幻覚のために法的に重要な設定の信頼性は依然として困難である。
我々は、米国連邦政府の税制準備を事例研究として、法律クリティカルなソフトウェアを開発するためのエージェント的アプローチを提案する。
重要な課題は、正しい出力が法則を解釈する必要があるオラクル問題の下でのテストケース生成である。
メタモルフィックテストに基づいて、類似した個人間の構造的シフト間でのシステム出力を比較する高次メタモルフィック関係を導入する。
このような関係のオーサリングは面倒でエラーを起こしやすいので、私たちはLLM駆動のロールベースのフレームワークを使ってテスト生成とコード合成を自動化する。
我々は,税制コードを実行可能なソフトウェアに変換するマルチエージェントシステムを実装し,反例を検索するメタモルフィックテストエージェントを組み込んでいる。
実験では,より小さなモデル (GPT-4o-mini) を用いて, ファストケースパス率45%を達成し, 複雑な税制タスクにおいてフロンティアモデル (GPT-4o, Claude 3.5, 9-15%) より優れていた。
これらの結果は、自然言語仕様からの堅牢で信頼性の高い法的クリティカルなソフトウェアへのパスとして、エージェントLLM方法論をサポートしている。
関連論文リスト
- Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。
静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。
検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文 参考訳(メタデータ) (2025-06-12T03:39:25Z) - On the Potential and Limitations of Few-Shot In-Context Learning to
Generate Metamorphic Specifications for Tax Preparation Software [12.071874385139395]
納税者の50%近くが、FY22にアメリカで税ソフトウェアを使って個人所得税を申告した。
本稿では,税制文書から抽出した属性間の翻訳タスクとして,変成仕様を作成するタスクを定式化する。
論文 参考訳(メタデータ) (2023-11-20T18:12:28Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Leveraging Large Language Models for Automated Proof Synthesis in Rust [6.202137610101939]
大規模言語モデル(LLM)は、コード解析と合成に成功している。
我々は、LLMと静的解析を組み合わせることで、Verusと呼ばれるRustベースの形式検証フレームワークの不変性、アサーション、その他の証明構造を合成する。
プロトタイプでは,検証タスクを複数の小さなタスクに分割し,反復的にGPT-4をクエリし,その出力と軽量な静的解析を組み合わせる。
論文 参考訳(メタデータ) (2023-11-07T05:47:47Z) - Metamorphic Testing and Debugging of Tax Preparation Software [2.185694185279913]
我々はケーススタディのためのオープンソース税作成ソフトウェアに焦点をあてる。
我々は,納税ソフトの正しさを体系的に検証するランダム化テストケース生成戦略を開発した。
論文 参考訳(メタデータ) (2022-05-10T16:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。