論文の概要: HSCodeComp: A Realistic and Expert-level Benchmark for Deep Search Agents in Hierarchical Rule Application
- arxiv url: http://arxiv.org/abs/2510.19631v1
- Date: Wed, 22 Oct 2025 14:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.926743
- Title: HSCodeComp: A Realistic and Expert-level Benchmark for Deep Search Agents in Hierarchical Rule Application
- Title(参考訳): HSCodeComp:階層型ルールアプリケーションにおけるディープサーチエージェントのための現実的でエキスパートレベルのベンチマーク
- Authors: Yiqian Yang, Tian Lan, Qianghuai Jia, Li Zhu, Hui Jiang, Hang Zhu, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: 我々は,階層型ルールアプリケーションにおける深層検索エージェントの評価を目的とした,最初の現実的,エキスパートレベルのeコマースベンチマークであるHSCodeCompを紹介する。
このタスクでは、エージェントの深い推論プロセスがこれらのルールによって導かれ、ノイズがあるが現実的な記述を持つ製品の10桁の調和システムコード(HSCode)を予測する。
提案するHSCodeCompは,多種多様な製品カテゴリにまたがる632の製品エントリから構成される。
- 参考スコア(独自算出の注目度): 39.596147825225025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective deep search agents must not only access open-domain and domain-specific knowledge but also apply complex rules-such as legal clauses, medical manuals and tariff rules. These rules often feature vague boundaries and implicit logic relationships, making precise application challenging for agents. However, this critical capability is largely overlooked by current agent benchmarks. To fill this gap, we introduce HSCodeComp, the first realistic, expert-level e-commerce benchmark designed to evaluate deep search agents in hierarchical rule application. In this task, the deep reasoning process of agents is guided by these rules to predict 10-digit Harmonized System Code (HSCode) of products with noisy but realistic descriptions. These codes, established by the World Customs Organization, are vital for global supply chain efficiency. Built from real-world data collected from large-scale e-commerce platforms, our proposed HSCodeComp comprises 632 product entries spanning diverse product categories, with these HSCodes annotated by several human experts. Extensive experimental results on several state-of-the-art LLMs, open-source, and closed-source agents reveal a huge performance gap: best agent achieves only 46.8% 10-digit accuracy, far below human experts at 95.0%. Besides, detailed analysis demonstrates the challenges of hierarchical rule application, and test-time scaling fails to improve performance further.
- Abstract(参考訳): 効果的なディープサーチエージェントは、オープンドメインやドメイン固有の知識だけでなく、法的条項、医療マニュアル、関税規則といった複雑なルールも適用しなければならない。
これらのルールは曖昧な境界と暗黙的な論理関係を特徴としており、エージェントの正確な応用は困難である。
しかし、この重要な機能は、現在のエージェントベンチマークでほとんど見過ごされている。
このギャップを埋めるために,階層ルールアプリケーションにおける深層検索エージェントの評価を目的とした,最初の現実的,専門家レベルのeコマースベンチマークであるHSCodeCompを紹介した。
このタスクでは、エージェントの深い推論プロセスがこれらのルールによって導かれ、ノイズがあるが現実的な記述を持つ製品の10桁の調和システムコード(HSCode)を予測する。
世界関税機関が制定したこれらの法典は、世界的なサプライチェーンの効率化に不可欠である。
大規模なeコマースプラットフォームから収集された実世界のデータから構築されたHSCodeCompは、さまざまな製品カテゴリにまたがる632の製品エントリで構成されています。
最先端のLCM、オープンソース、クローズドソースのエージェントによる大規模な実験の結果、大きなパフォーマンスギャップが示され、最高のエージェントはわずか46.8%の10桁の精度しか達成していない。
さらに、詳細な分析では階層的なルール適用の課題が示され、テストタイムのスケーリングはパフォーマンスをさらに向上することができない。
関連論文リスト
- DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - HALO: Hierarchical Autonomous Logic-Oriented Orchestration for Multi-Agent LLM Systems [1.1930434318557155]
階層的推論アーキテクチャに基づくマルチエージェント協調フレームワークHALOを紹介する。
具体的には、タスク分解のための高レベル計画エージェント、サブタスク固有のエージェントインスタンス化のための中レベルロール設計エージェント、サブタスク実行のための低レベル推論エージェントを組み込んだ。
ユーザの大部分がプロンプトエンジニアリングの専門知識を欠いているため、Adaptive Prompt Refinementモジュールを使用して、生クエリをタスク固有のプロンプトに変換する。
論文 参考訳(メタデータ) (2025-05-17T04:14:03Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。