論文の概要: Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance
- arxiv url: http://arxiv.org/abs/2601.08418v1
- Date: Tue, 13 Jan 2026 10:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.155955
- Title: Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance
- Title(参考訳): タクソン:LLM専門家指導による階層型税法予測
- Authors: Jihang Li, Qing Liu, Zulong Chen, Jing Wang, Wei Wang, Chuanfei Xu, Zeyi Wen,
- Abstract要約: タクソン(Taxon)は、階層的な税コード予測のための意味論的に整合し、専門家が指導するフレームワークである。
タクシーはアリババの税務サービスシステム内で生産されている。
- 参考スコア(独自算出の注目度): 17.32251921642481
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tax code prediction is a crucial yet underexplored task in automating invoicing and compliance management for large-scale e-commerce platforms. Each product must be accurately mapped to a node within a multi-level taxonomic hierarchy defined by national standards, where errors lead to financial inconsistencies and regulatory risks. This paper presents Taxon, a semantically aligned and expert-guided framework for hierarchical tax code prediction. Taxon integrates (i) a feature-gating mixture-of-experts architecture that adaptively routes multi-modal features across taxonomy levels, and (ii) a semantic consistency model distilled from large language models acting as domain experts to verify alignment between product titles and official tax definitions. To address noisy supervision in real business records, we design a multi-source training pipeline that combines curated tax databases, invoice validation logs, and merchant registration data to provide both structural and semantic supervision. Extensive experiments on the proprietary TaxCode dataset and public benchmarks demonstrate that Taxon achieves state-of-the-art performance, outperforming strong baselines. Further, an additional full hierarchical paths reconstruction procedure significantly improves structural consistency, yielding the highest overall F1 scores. Taxon has been deployed in production within Alibaba's tax service system, handling an average of over 500,000 tax code queries per day and reaching peak volumes above five million requests during business event with improved accuracy, interpretability, and robustness.
- Abstract(参考訳): 税法予測は、大規模なeコマースプラットフォームにおける請求書発行とコンプライアンス管理を自動化する上で、重要かつ未調査の課題である。
各製品は、国家標準によって定義された多段階の分類階層内のノードに正確にマッピングされなければならない。
本稿では,階層型税法予測のためのセマンティック・アライメントとエキスパート誘導型フレームワークであるTaxonを提案する。
Taxon (複数形 Taxons)
(i)マルチモーダルな特徴を分類レベルにわたって適応的にルーティングする専門知識混在型アーキテクチャ
二 ドメインエキスパートとして機能する大規模言語モデルから抽出した意味整合性モデルにより、製品名と公式税の定義の整合性を検証すること。
実業務記録におけるノイズの多い監視に対処するため、我々は、構造化された税データベース、請求書検証ログ、商店登録データを組み合わせたマルチソーストレーニングパイプラインを設計し、構造的および意味的監督を提供する。
プロプライエタリなTaxCodeデータセットと公開ベンチマークに関する大規模な実験は、Taxonが最先端のパフォーマンスを達成し、強力なベースラインを上回っていることを示している。
さらに、追加の完全な階層的な経路再構築手順は、構造的整合性を大幅に改善し、F1のスコアが最高になる。
アリババの税務サービスシステム内で運用されているTaxonは、1日平均50万件以上の税務コードクエリを処理し、正確性、解釈可能性、堅牢性を改善したビジネスイベント中に500万件以上の要求を達成している。
関連論文リスト
- Information Extraction From Fiscal Documents Using LLMs [0.44641493866640386]
複数ページの政府財政文書から構造化されたデータを抽出する新しい手法を提案する。
提案手法は, ドメイン知識, 逐次コンテキスト, アルゴリズム検証を活用する多段階パイプラインを用いて, 高い精度を実現する。
我々の実装は、発展途上国の状況にまたがって幅広い応用を約束することを示している。
論文 参考訳(メタデータ) (2025-11-03T19:17:49Z) - Domain-Adaptive Small Language Models for Structured Tax Code Prediction [0.05783229039119002]
本稿では,製品およびサービス税体系の高次予測のためのエンコーダデコーダアーキテクチャを備えたドメイン適応型小言語モデル(SLM)を提案する。
我々は,エンコーダ-デコーダアーキテクチャに基づくSLMを用いて,逐次税制コードの生成を可能にする。
本研究では, エンコーダ・デコーダのSLMを, 構造化税コードの逐次予測に適用できることを実証した。
論文 参考訳(メタデータ) (2025-07-15T00:46:01Z) - CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language Prompts [40.52605902842168]
分類学は知識の構造的表現を提供することによって様々な応用において重要な役割を果たす。
従来のアプローチは、通常、既存の分類学からアノテーションデータを生成する自己管理手法に依存していた。
CodeTaxoは、コード言語プロンプトを通じて大きな言語モデルを活用する新しいアプローチで、分類学的構造を捉える。
論文 参考訳(メタデータ) (2024-08-17T02:15:07Z) - A Taxation Perspective for Fair Re-ranking [61.946428892727795]
本稿では,2項目間の実用性の違いに基づいて税率を上昇させる,税率という新たな公正な再格付け手法を提案する。
我々のモデルである税ランクは、公正な優遇措置として優れた税率政策を提供し、理論的には、精度損失よりも連続性と制御性の両方を実証している。
論文 参考訳(メタデータ) (2024-04-27T08:21:29Z) - Insert or Attach: Taxonomy Completion via Box Embedding [75.69894194912595]
以前のアプローチでは、ユークリッド空間のベクトルとして概念を組み込んでおり、分類学における非対称関係をモデル化することは困難である。
ボックス内埋め込み空間内に2つの特殊な幾何学的スコアラを設計するために,ボックス封じ込めと中心クローズネスを活用するフレームワークであるTaxBoxを開発した。
これらのスコアラーは挿入操作とアタッチメント操作用に調整されており、概念間の本質的な関係を効果的に捉えることができる。
論文 参考訳(メタデータ) (2023-05-18T14:34:58Z) - TaxoEnrich: Self-Supervised Taxonomy Completion via Structure-Semantic
Representations [28.65753036636082]
本稿では,既存の分類学における意味的特徴と構造的情報の両方を効果的に活用する新しい分類学補完フレームワークを提案する。
分類エンリッチは,(1)概念の意味的意味と分類学的関係を,強力な事前学習言語モデルに基づいて組み込んだ分類記述型埋め込み,(2)分類の構造情報を符号化して候補位置表現を学習する分類認識シーケンシャルエンコーダの4つの構成要素から構成される。
異なるドメインからの4つの大規模な実世界のデータセットの実験は、TaxoEnrichがすべての評価指標の中で最高のパフォーマンスを達成し、過去の最先端よりも大きなマージンでパフォーマンスを向上していることを示している。
論文 参考訳(メタデータ) (2022-02-10T08:10:43Z) - Who Should Go First? A Self-Supervised Concept Sorting Model for
Improving Taxonomy Expansion [50.794640012673064]
データとビジネスの範囲が実際のアプリケーションで拡大するにつれ、既存の概念を組み込むために拡張する必要がある。
分類学の拡張に関する以前の研究は、新しい概念を独立して同時に処理し、それらの間の潜在的な関係と操作を挿入する適切な順序を無視します。
本稿では,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。
論文 参考訳(メタデータ) (2021-04-08T11:00:43Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。