論文の概要: TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice
- arxiv url: http://arxiv.org/abs/2604.08948v1
- Date: Fri, 10 Apr 2026 04:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.684309
- Title: TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice
- Title(参考訳): TaxPraBen:中国におけるLLMの構造評価のためのスケーラブルベンチマーク
- Authors: Gang Hu, Yating Chen, Haiyan Ding, Wang Gao, Jiajia Huang, Min Peng, Qianqian Xie, Kun Yu,
- Abstract要約: 中国初の税制慣行のための専用ベンチマークであるTaxPraBenを紹介します。
従来の10のアプリケーションタスクと、税リスク防止、税務検査分析、税制戦略計画という3つの先駆的な現実シナリオを組み合わせる。
TaxPraBenは、"構造化解析-フィールドアライメント-数値抽出"プロセスを通じて設計されたスケーラブルな構造化評価パラダイムを備えている。
- 参考スコア(独自算出の注目度): 18.250570045713882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel in various general domains, they exhibit notable gaps in the highly specialized, knowledge-intensive, and legally regulated Chinese tax domain. Consequently, while tax-related benchmarks are gaining attention, many focus on isolated NLP tasks, neglecting real-world practical capabilities. To address this issue, we introduce TaxPraBen, the first dedicated benchmark for Chinese taxation practice. It combines 10 traditional application tasks, along with 3 pioneering real-world scenarios: tax risk prevention, tax inspection analysis, and tax strategy planning, sourced from 14 datasets totaling 7.3K instances. TaxPraBen features a scalable structured evaluation paradigm designed through process of "structured parsing-field alignment extraction-numerical and textual matching", enabling end-to-end tax practice assessment while being extensible to other domains. We evaluate 19 LLMs based on Bloom's taxonomy. The results indicate significant performance disparities: all closed-source large-parameter LLMs excel, and Chinese LLMs like Qwen2.5 generally exceed multilingual LLMs, while the YaYi2 LLM, fine-tuned with some tax data, shows only limited improvement. TaxPraBen serves as a vital resource for advancing evaluations of LLMs in practical applications.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、様々な一般ドメインで優れているが、高度に専門化され、知識が集中し、法的に規制された中国の税制ドメインにおいて、顕著なギャップをみせている。
その結果,税関連ベンチマークが注目されている一方で,NLPタスクの分離や現実の実用能力の無視に注目が集まっている。
この問題に対処するため、中国税制実践のための初の専用ベンチマークであるTaxPraBenを紹介します。
従来の10のアプリケーションタスクと、税リスク防止、税務検査分析、税制戦略計画という3つの先駆的な現実シナリオを組み合わせて、合計7.3Kインスタンスの14のデータセットをソースとしている。
TaxPraBenは、"構造化パーシングフィールドアライメント抽出およびテキストマッチング"プロセスを通じて設計されたスケーラブルな構造化評価パラダイムを備えており、他のドメインに拡張可能なエンドツーエンドの税実践評価を可能にする。
ブルームの分類に基づく19のLSMを評価した。
Qwen2.5のような中国のLLMは一般的に多言語LLMを上回り、YaYi2 LLMは税データによって微調整されているが、改善は限られている。
TaxPraBen は LLM の評価を実践的に進めるための重要な資源である。
関連論文リスト
- PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance [17.32251921642481]
タクソン(Taxon)は、階層的な税コード予測のための意味論的に整合し、専門家が指導するフレームワークである。
タクシーはアリババの税務サービスシステム内で生産されている。
論文 参考訳(メタデータ) (2026-01-13T10:41:23Z) - Using Large Language Models for Legal Decision-Making in Austrian Value-Added Tax Law: An Experimental Study [0.0]
本稿では,オーストリアと欧州連合の付加価値税法(VAT)の枠組みにおいて,大規模言語モデル(LLM)の法的意思決定を支援する能力について実験的に評価する。
論文 参考訳(メタデータ) (2025-07-11T10:19:56Z) - FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information [47.37027539828975]
FinTaggingは構造認識とフルスコープのための最初の包括的なベンチマークである。
タグ付け
数値識別用FinNIは、数値エンティティとそのタイプを抽出する。
財務報告
概念リンクのためのFinCLは、抽出された各実体を米国の完全な分類学における対応する概念にマッピングする。
論文 参考訳(メタデータ) (2025-05-27T02:55:53Z) - Taxation Perspectives from Large Language Models: A Case Study on Additional Tax Penalties [5.185522256407782]
付加的な税罰の正当性を予測するためのLCMの能力を評価するために設計された新しいベンチマークPLATを紹介する。
6つの LLM を用いて行った実験では,その基礎となる能力は限定的であり,特に包括的理解を必要とする矛盾する問題に対処する場合に限られていることが判明した。
論文 参考訳(メタデータ) (2025-03-05T12:24:20Z) - Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。
LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。
本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-15T11:32:35Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。