論文の概要: ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
- arxiv url: http://arxiv.org/abs/2509.18400v1
- Date: Mon, 22 Sep 2025 20:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.573334
- Title: ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
- Title(参考訳): ATLAS: 標準化された関税コード分類による世界貿易のためのLLMのベンチマークと適応
- Authors: Pritish Yuvraj, Siva Devarakonda,
- Abstract要約: 再分類は出荷を完全に停止する可能性があるが、主要郵便業者は不完全な税関文書のために米国への配達を停止する。
米国税関ルールオンライン検索システム(CROSS)から派生したHTSコード分類のための最初のベンチマークを紹介する。
我々の微調整されたアトラスモデル(LLaMA-3.3-70B)は、完全な10桁分類と57.5パーセントの正確な6桁分類を実現している。
- 参考スコア(独自算出の注目度): 0.5558846117297186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.
- Abstract(参考訳): Harmonized Tariff Schedule (HTS)の下での製品の正確な分類は、世界的な貿易において重要なボトルネックであるが、機械学習コミュニティからはほとんど注目を集めていない。
再分類は出荷を完全に停止する可能性があるが、主要郵便業者は不完全な税関文書のために米国への配達を停止する。
本稿では,米国税関ラリングスオンライン検索システム(CROSS)から派生したHTSコード分類のための最初のベンチマークを紹介する。
我々の微調整されたAtlasモデル(LLaMA-3.3-70B)は、完全な10桁分類と57.5パーセントの正確な6桁分類を実現し、GPT-5-シンキングよりも15ポイント、Gemini-2.5-Pro-Thinkingより27.5ポイント改善した。
正確性以外にも、AtlasはGPT-5-Thinkingより約5倍安く、Gemini-2.5-Pro-Thinkingより8倍安い。
Atlasは強力なベースラインを設定するが、ベンチマークは非常に困難であり、10桁の精度はわずか40%だ。
データセットとモデルの両方をリリースすることにより、HTS分類を新しいコミュニティベンチマークタスクとして位置づけ、検索、推論、アライメントにおける今後の取り組みを招待することを目指している。
関連論文リスト
- System Report for CCL25-Eval Task 10: SRAG-MAV for Fine-Grained Chinese Hate Speech Recognition [12.952821909188673]
タスク再構成(TR)、自己検索型生成(SRAG)、マルチラウンド累積投票(MAV)を統合した新しいSRAG-MAVフレームワークを提案する。
提案手法は, 四重項抽出タスクを3重項抽出に再構成し, 文脈的プロンプトの生成にトレーニングセットからの動的検索を用い, 投票による多ラウンド推論を適用し, 出力安定性と性能を向上させる。
論文 参考訳(メタデータ) (2025-07-24T16:56:38Z) - Fine-tuning BERT with Bidirectional LSTM for Fine-grained Movie Reviews Sentiment Analysis [0.0]
映画レビューにおいて,Bidirectional LSTM (BiLSTM) を用いて事前学習したBERTモデルを微調整し,バイナリと微細なSAを両立させる。
本稿では,ベンチマークデータセットを用いた二項分類ときめ細かな分類について述べる。
論文 参考訳(メタデータ) (2025-02-28T03:30:48Z) - CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification [5.503948543987285]
CerraData-4MMは、Sentinel-1 Synthetic Aperture Radar (SAR)とSentinel-2 MultiSpectral Imagery (MSI)を組み合わせたデータセットである。
データセットには、それぞれ7クラスと14クラスからなる2つの階層的な分類レベルが含まれており、多様なBico do Papagaio eco Regionに焦点を当てている。
我々は、標準的なU-Netとより洗練されたビジョントランスフォーマー(ViT)モデルを評価することにより、高度なセマンティックセグメンテーション手法をベンチマークするCerraData-4MMの能力を強調した。
論文 参考訳(メタデータ) (2025-01-31T15:57:17Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking [2.5238707656136694]
Generalized Contrastive Learning (GCL)は、連立関係を超えた連続的なランキングスコアから学習するために設計されたトレーニングフレームワークである。
GCLは、ランキングスコアを損失関数に適用することにより、関連性およびランキング情報を統合埋め込み空間に符号化する。
論文 参考訳(メタデータ) (2024-04-12T15:30:03Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。