Fugu-MT 論文翻訳(概要): An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

論文の概要: An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

arxiv url: http://arxiv.org/abs/2509.13471v1
Date: Tue, 16 Sep 2025 19:13:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-18 18:41:50.621611
Title: An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software
Title（参考訳）: 法的批判的ソフトウェアに対するLLMエージェントアプローチ--税前ソフトウェアを事例として
Authors: Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari,
Abstract要約: 大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束している。本稿では,米国連邦政府の税制改革を事例として,法的に重要なソフトウェアを開発するためのエージェント的アプローチを提案する。
参考スコア（独自算出の注目度）: 7.672965856139587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) show promise for translating natural-language statutes into executable logic, but reliability in legally critical settings remains challenging due to ambiguity and hallucinations. We present an agentic approach for developing legal-critical software, using U.S. federal tax preparation as a case study. The key challenge is test-case generation under the oracle problem, where correct outputs require interpreting law. Building on metamorphic testing, we introduce higher-order metamorphic relations that compare system outputs across structured shifts among similar individuals. Because authoring such relations is tedious and error-prone, we use an LLM-driven, role-based framework to automate test generation and code synthesis. We implement a multi-agent system that translates tax code into executable software and incorporates a metamorphic-testing agent that searches for counterexamples. In experiments, our framework using a smaller model (GPT-4o-mini) achieves a worst-case pass rate of 45%, outperforming frontier models (GPT-4o and Claude 3.5, 9-15%) on complex tax-code tasks. These results support agentic LLM methodologies as a path to robust, trustworthy legal-critical software from natural-language specifications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語の規則を実行可能な論理に変換することを約束しているが、曖昧さと幻覚のために法的に重要な設定の信頼性は依然として困難である。我々は、米国連邦政府の税制準備を事例研究として、法律クリティカルなソフトウェアを開発するためのエージェント的アプローチを提案する。重要な課題は、正しい出力が法則を解釈する必要があるオラクル問題の下でのテストケース生成である。メタモルフィックテストに基づいて、類似した個人間の構造的シフト間でのシステム出力を比較する高次メタモルフィック関係を導入する。このような関係のオーサリングは面倒でエラーを起こしやすいので、私たちはLLM駆動のロールベースのフレームワークを使ってテスト生成とコード合成を自動化する。我々は,税制コードを実行可能なソフトウェアに変換するマルチエージェントシステムを実装し,反例を検索するメタモルフィックテストエージェントを組み込んでいる。実験では,より小さなモデル (GPT-4o-mini) を用いて, ファストケースパス率45%を達成し, 複雑な税制タスクにおいてフロンティアモデル (GPT-4o, Claude 3.5, 9-15%) より優れていた。これらの結果は、自然言語仕様からの堅牢で信頼性の高い法的クリティカルなソフトウェアへのパスとして、エージェントLLM方法論をサポートしている。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
On the Potential and Limitations of Few-Shot In-Context Learning to Generate Metamorphic Specifications for Tax Preparation Software [12.071874385139395]
納税者の50%近くが、FY22にアメリカで税ソフトウェアを使って個人所得税を申告した。本稿では,税制文書から抽出した属性間の翻訳タスクとして,変成仕様を作成するタスクを定式化する。
論文参考訳（メタデータ） (2023-11-20T18:12:28Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Leveraging Large Language Models for Automated Proof Synthesis in Rust [6.202137610101939]
大規模言語モデル(LLM)は、コード解析と合成に成功している。我々は、LLMと静的解析を組み合わせることで、Verusと呼ばれるRustベースの形式検証フレームワークの不変性、アサーション、その他の証明構造を合成する。プロトタイプでは,検証タスクを複数の小さなタスクに分割し,反復的にGPT-4をクエリし,その出力と軽量な静的解析を組み合わせる。
論文参考訳（メタデータ） (2023-11-07T05:47:47Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Metamorphic Testing and Debugging of Tax Preparation Software [2.185694185279913]
我々はケーススタディのためのオープンソース税作成ソフトウェアに焦点をあてる。我々は,納税ソフトの正しさを体系的に検証するランダム化テストケース生成戦略を開発した。
論文参考訳（メタデータ） (2022-05-10T16:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。