論文の概要: A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions
- arxiv url: http://arxiv.org/abs/2605.14857v1
- Date: Thu, 14 May 2026 14:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.860819
- Title: A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions
- Title(参考訳): HSターゲット分類のための決定論的エージェントワークフロー:解釈的決定を伴う多次元ルール推論
- Authors: Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen,
- Abstract要約: このアーキテクチャは、中国の関税に関するオフラインの知識エンジニアリングと、オンラインの6段階パイプラインを組み合わせたものだ。
226桁の6桁の意見の不一致に関する2段階のマニュアル監査は、HSCodeCompの地味なラベルのごく一部が一般的な規則から逸脱する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 16.99257993610188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmonized System (HS) tariff classification is a high-stakes, expert-level task in which a free-form product description must be mapped to a specific six- or eight-digit code under the General Interpretive Rules (GIR), section notes, chapter notes, and Explanatory Notes. The difficulty lies not in knowledge volume but in *multi-dimensional rule reasoning*: a correct classification must satisfy competing priority rules along several axes simultaneously, including material, form, function, essential character, the part-versus-whole boundary, and specific listing versus residual headings. End-to-end prompting of large language models fails characteristically by resolving one axis while ignoring the priority constraints on the others. We present a *deterministic agentic workflow* in contrast to self-planning agents: the control flow is fixed, language model calls are confined to narrow stages, and reflection and verification are retained as local mechanisms. This design yields interpretability by construction--each decision is decomposed into stage-wise structured outputs with verbatim citation of the chapter or section notes that bear on it. The architecture combines offline knowledge-engineering of the Chinese HS tariff with an online six-stage pipeline. Evaluated on HSCodeComp at the six-digit level, the workflow reaches 75.0% top-1 and 91.5% top-3 at four digits, and 64.2% top-1 and 78.3% top-3 at six digits with Qwen3.6-plus; an open-weight Qwen3.6-27B-FP8 backbone in non-thinking mode achieves 84.2% four-digit and 77.4% six-digit top-1 agreement with the frontier model. A two-stage manual audit of 226 six-digit disagreements suggests that a non-trivial fraction of HSCodeComp ground-truth labels may deviate from HS general rules; full adjudication records are released in the appendix as preliminary findings for community review.
- Abstract(参考訳): 調和システム(英: Harmonized System、HS)の関税分類は、一般解釈規則(英: General Interpretive Rules、GIR)、セクションノート(英: section notes)、章ノート(英: chapter notes)、説明ノート(英: Explanatory Notes、英: Explanatory Notes)の6桁または8桁の特定のコードに、フリーフォームの製品記述をマッピングしなければならない、高度な専門家レベルのタスクである。
正しい分類は、材料、形式、機能、本質的な性格、部分対対全境界、特定のリストと残留方向を含むいくつかの軸に沿った競合する優先規則を同時に満たさなければならない。
大きな言語モデルのエンドツーエンドのプロンプトは、一方の軸を解消し、もう一方の軸に優先的な制約を無視して、特徴的に失敗する。
制御フローは固定され、言語モデルコールは狭い段階に限定され、リフレクションと検証は局所的なメカニズムとして保持される。
この設計は、構成によって解釈可能性をもたらし、各決定は、その章またはそれに付随するセクションノートを口頭で引用し、段階的に構造化された出力に分解される。
このアーキテクチャは、中国のHS関税のオフライン知識エンジニアリングとオンラインの6段階パイプラインを組み合わせたものだ。
HSCodeCompの6桁レベルでの評価では、ワークフローは4桁で75.0%のトップ1、91.5%のトップ3、64.2%トップ1、78.3%トップ3、Qwen3.6プラスで6桁でQwen3.6プラス、オープンウェイトモードでQwen3.6-27B-FP8のバックボーンは84.2%、フロンティアモデルで77.4%となる。
226桁の6桁の意見の不一致に関する2段階のマニュアル監査は、HSCodeCompの非自明な一部がHS一般規則から逸脱する可能性があることを示唆している。
関連論文リスト
- Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt Engineering Quality Assurance [0.0]
AEGISに適用されたエージェント駆動型監査の単一システム事例研究を報告する。
本報告では, 明示的な符号規則, 非単調な収束, 監査スコープの拡がりを含む7カテゴリーの欠陥分類を報告する。
論文 参考訳(メタデータ) (2026-05-12T15:39:04Z) - DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules [4.124344125532972]
複雑な工業資産の監視は、センサーの条件に基づいて引き起こされるエンジニアによる象徴的な規則に依存している。
ルールをメンテナンスステップに変換するには、長年の実践を通じて得られた資産固有の知識が必要です。
このルール・ツー・アクション・ステップの意思決定支援としてLLMが有効か検討し,6,690名の専門家による複数選択質問をベンチマークした。
論文 参考訳(メタデータ) (2026-05-09T02:17:39Z) - Instruction Complexity Induces Positional Collapse in Adversarial LLM Evaluation [0.0]
Vagueの逆行命令は、保存されたコンテンツエンゲージメントによって適度に精度を低下させる。
2段階の応答認識回避命令は、単一応答位置にほぼ全方位濃度で極端に位置崩壊する。
その結果、命令の複雑さは、敵対的コンプライアンスがコンテンツ認識またはコンテンツブラインドメカニズムを使用するかどうかを判断できることが示唆された。
論文 参考訳(メタデータ) (2026-04-29T22:48:24Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。