論文の概要: Domain-Adaptive Small Language Models for Structured Tax Code Prediction
- arxiv url: http://arxiv.org/abs/2507.10880v1
- Date: Tue, 15 Jul 2025 00:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.930568
- Title: Domain-Adaptive Small Language Models for Structured Tax Code Prediction
- Title(参考訳): 構造税コード予測のためのドメイン適応型小言語モデル
- Authors: Souvik Nath, Sumit Wadhwa, Luiz Perez,
- Abstract要約: 本稿では,製品およびサービス税体系の高次予測のためのエンコーダデコーダアーキテクチャを備えたドメイン適応型小言語モデル(SLM)を提案する。
我々は,エンコーダ-デコーダアーキテクチャに基づくSLMを用いて,逐次税制コードの生成を可能にする。
本研究では, エンコーダ・デコーダのSLMを, 構造化税コードの逐次予測に適用できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every day, multinational firms process thousands of transactions, each of which must adhere to tax regulations that vary by jurisdiction and are often nuanced. The determination of product and service tax codes, such as HSN or SAC is a major use case in Tax compliance. An accurate determination of such codes is imperative to avoid any tax penalties. This paper proposes a domain-adaptive small language model (SLM) with an encoder-decoder architecture for the enhanced prediction of product and service tax codes. In this approach, we address the problem of predicting hierarchical tax code sequences using unstructured product and services data. We employ an SLM based upon encoder-decoder architecture as this enables sequential generation of tax codes to capture the hierarchical dependencies present within the tax codes. Our experiments demonstrate that encoder-decoder SLMs can be successfully applied to the sequential prediction of structured tax codes, a domain that remains comparatively unexplored in current NLP research. In this paper, we demonstrate the superior performance of the domain-adaptive encoder-decoder SLMs over flat classifiers when applied to the Harmonized System of Nomenclature (HSN), and achieve superior results compared to decoder-only and encoder-only architectures for structured sequence generation tasks. This approach can also be scaled to other government-mandated tax commodity codes, such as United Nations Standard Products and Services Codes (UNSPSC), or Brazil's Nomenclatura Comum do Mercosul (NCM).
- Abstract(参考訳): 多国籍企業は毎日何千もの取引を処理しており、それぞれが管轄範囲によって異なる税制に従わなければならない。
HSN や SAC などの製品およびサービス税体系の決定は、納税コンプライアンスにおける主要なユースケースである。
このような規定の正確な決定は、いかなる税罰も避けることが不可欠である。
本稿では,製品およびサービス税体系の高次予測のためのエンコーダデコーダアーキテクチャを備えたドメイン適応型小言語モデル(SLM)を提案する。
本稿では,非構造化製品およびサービスデータを用いた階層型税制コード列の予測問題に対処する。
本研究では, エンコーダ-デコーダアーキテクチャに基づくSLMを用いて, 税務コード内の階層的依存関係を逐次生成することで, 税務コード内の階層的依存関係を捕捉する。
本実験により, エンコーダ・デコーダSLMは, 現在NLP研究で研究されていない領域である構造化税コードの逐次予測に適用可能であることが示された。
本稿では,平易な分類器よりもドメイン適応型エンコーダデコーダSLMの方が,調和型命名システム(HSN)よりも優れた性能を示し,構造化シーケンス生成タスクにおけるデコーダのみおよびエンコーダのみのアーキテクチャと比較して優れた結果が得られることを示す。
このアプローチは、国連標準製品サービスコード(UNSPSC)やブラジルのNmenclatura Comum do Mercosul(NCM)など、他の政府によって課された税制商品コードにも拡張することができる。
関連論文リスト
- Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation [36.166087396386445]
金融規制コンプライアンスに特化した中国初の大規模データセットであるCompliance-to-Codeを提示する。
10のカテゴリにわたる361の規則から1,159の注釈付き節をカバーし、各節は規則関係とともに4つの論理的要素、条件、制約、文脈情報からなるモジュール構造になっている。
自動監査を容易にするために,決定論的Pythonコードマッピング,詳細なコード推論,コード説明を提供する。
論文 参考訳(メタデータ) (2025-05-26T10:38:32Z) - Technical Challenges in Maintaining Tax Prep Software with Large Language Models [6.419602857618507]
我々は、LLM(Large Language Models)を活用した技術的課題を特定し、理解し、対処することに注力する。
我々の研究は、ChatGPTとLlamaを利用してIRS出版物からコード差分を忠実に抽出する技術的課題を特定し、理解し、対処することに焦点を当てています。
論文 参考訳(メタデータ) (2025-04-25T21:00:20Z) - CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。
本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。
実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-14T09:51:23Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - A Novel ICD Coding Method Based on Associated and Hierarchical Code Description Distillation [6.524062529847299]
ICD符号化は、ノイズの多い医療文書入力による多ラベルテキスト分類の問題である。
近年のICD符号化の進歩により、医療用ノートやコードに付加的なデータや知識ベースを組み込むことで、性能が向上した。
コード表現学習の改善と不適切なコード代入の回避を目的とした,関連および階層型コード記述蒸留(AHDD)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T07:26:23Z) - On the Potential and Limitations of Few-Shot In-Context Learning to
Generate Metamorphic Specifications for Tax Preparation Software [12.071874385139395]
納税者の50%近くが、FY22にアメリカで税ソフトウェアを使って個人所得税を申告した。
本稿では,税制文書から抽出した属性間の翻訳タスクとして,変成仕様を作成するタスクを定式化する。
論文 参考訳(メタデータ) (2023-11-20T18:12:28Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Metamorphic Testing and Debugging of Tax Preparation Software [2.185694185279913]
我々はケーススタディのためのオープンソース税作成ソフトウェアに焦点をあてる。
我々は,納税ソフトの正しさを体系的に検証するランダム化テストケース生成戦略を開発した。
論文 参考訳(メタデータ) (2022-05-10T16:10:10Z) - Who Should Go First? A Self-Supervised Concept Sorting Model for
Improving Taxonomy Expansion [50.794640012673064]
データとビジネスの範囲が実際のアプリケーションで拡大するにつれ、既存の概念を組み込むために拡張する必要がある。
分類学の拡張に関する以前の研究は、新しい概念を独立して同時に処理し、それらの間の潜在的な関係と操作を挿入する適切な順序を無視します。
本稿では,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。
論文 参考訳(メタデータ) (2021-04-08T11:00:43Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。