論文の概要: Benchmarking Harmonized Tariff Schedule Classification Models
- arxiv url: http://arxiv.org/abs/2412.14179v1
- Date: Wed, 04 Dec 2024 16:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 08:06:06.716940
- Title: Benchmarking Harmonized Tariff Schedule Classification Models
- Title(参考訳): 調和型関税スケジュール分類モデルのベンチマーク
- Authors: Bryce Judy,
- Abstract要約: この研究は、Zanos、Tarifflo、Avalara、WCO BACUDAなど、いくつかの業界主導のソリューションを評価した。
その結果は、業界全体の改善とイノベーションの領域を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Harmonized Tariff System (HTS) classification industry, essential to e-commerce and international trade, currently lacks standardized benchmarks for evaluating the effectiveness of classification solutions. This study establishes and tests a benchmark framework for imports to the United States, inspired by the benchmarking approaches used in language model evaluation, to systematically compare prominent HTS classification tools. The framework assesses key metrics--such as speed, accuracy, rationality, and HTS code alignment--to provide a comprehensive performance comparison. The study evaluates several industry-leading solutions, including those provided by Zonos, Tarifflo, Avalara, and WCO BACUDA, identifying each tool's strengths and limitations. Results highlight areas for industry-wide improvement and innovation, paving the way for more effective and standardized HTS classification solutions across the international trade and e-commerce sectors.
- Abstract(参考訳): HTS(Harmonized Tariff System)分類産業は、eコマースや国際貿易に必須であり、現在、分類ソリューションの有効性を評価するための標準ベンチマークを欠いている。
本研究は,HTS分類ツールを体系的に比較するために,言語モデル評価に使用されるベンチマーク手法に触発されて,米国への輸入のためのベンチマークフレームワークを確立し,テストする。
このフレームワークは、スピード、正確性、合理性、HTSコードアライメントなどの主要なメトリクスを評価し、包括的なパフォーマンス比較を提供する。
この研究は、Zanos、Tarifflo、Avalara、WCO BACUDAなどの業界主導のソリューションを評価し、それぞれのツールの強みと限界を特定した。
結果は、業界全体の改善とイノベーションの分野を浮き彫りにし、国際貿易・電子商取引セクターにおけるより効果的で標準化されたHTS分類ソリューションの道を開いた。
関連論文リスト
- Scoring Verifiers: Evaluating Synthetic Verification in Code and Reasoning [59.25951947621526]
本稿では,合成検証手法が解の正当性評価に与える影響を評価するためのベンチマークを紹介する。
我々は,標準,推論,報酬に基づくLLMにおける合成検証手法を解析した。
その結果,最近の推論モデルではテストケースの生成が大幅に改善され,スケールテストケースの精度が向上した。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - TextClass Benchmark: A Continuous Elo Rating of LLMs in Social Sciences [0.0]
TextClass Benchmarkプロジェクトは、テキスト分類タスクのためのLLMと変換器の包括的で公平で動的な評価を提供することを目的としている。
この評価は、NLPやテキスト・アズ・データ・アプローチに関わる社会科学の分野における様々な領域や言語にまたがる。
リーダーボードは、カスタマイズされたEloレーティングシステムを使用して、パフォーマンス指標と相対ランクを示す。
論文 参考訳(メタデータ) (2024-11-30T17:09:49Z) - LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models [0.0]
大規模言語モデル(LLM)の普及は、その局所的価値や倫理的基準との整合性をしっかりと評価する必要がある。
textscLocalValueBenchは、LLMがオーストラリアの値に準拠していることを評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-07-27T05:55:42Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文 参考訳(メタデータ) (2023-05-05T07:44:23Z) - An Ensemble-based approach for assigning text to correct Harmonized
system code [2.365702128814616]
ハーモナイズドシステム(HS)は、業界分類システムの中で、取引された商品を分類する最も標準化された数値手法である。
Bert-transformer, NER, 距離ベースアプローチ, 知識グラフからなる階層型アンサンブルモデルは, 未知のテキスト記述をHS法で分類する際に, スケーラビリティ, カバレッジ, ニュアンスを捕捉する能力, 自動化, 監査要求に対処するために開発された。
論文 参考訳(メタデータ) (2022-11-08T15:32:36Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - fairlib: A Unified Framework for Assessing and Improving Classification
Fairness [66.27822109651757]
Fairlibは、分類の公平さを評価し改善するためのオープンソースのフレームワークである。
我々は、前処理、訓練時間、後処理を含む14のデバイアス化手法を実装した。
組み込まれたメトリクスは、最も一般的に使用されるフェアネス基準をカバーし、フェアネス評価のためにさらに一般化およびカスタマイズすることができる。
論文 参考訳(メタデータ) (2022-05-04T03:50:23Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。