論文の概要: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
- arxiv url: http://arxiv.org/abs/2507.11527v1
- Date: Tue, 15 Jul 2025 17:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.210976
- Title: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
- Title(参考訳): DrafterBench: 土木工学におけるタスク自動化のための大規模言語モデルのベンチマーク
- Authors: Yinsheng Li, Zhen Dong, Yi Shao,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。
技術図面修正の文脈におけるLLMエージェントの総合評価のためのDrafterBenchを提案する。
DrafterBenchは、AIエージェントが複雑な長文の命令を解釈する習熟度を厳格にテストするオープンソースのベンチマークである。
- 参考スコア(独自算出の注目度): 7.264718073839472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents have shown great potential for solving real-world problems and promise to be a solution for tasks automation in industry. However, more benchmarks are needed to systematically evaluate automation agents from an industrial perspective, for example, in Civil Engineering. Therefore, we propose DrafterBench for the comprehensive evaluation of LLM agents in the context of technical drawing revision, a representation task in civil engineering. DrafterBench contains twelve types of tasks summarized from real-world drawing files, with 46 customized functions/tools and 1920 tasks in total. DrafterBench is an open-source benchmark to rigorously test AI agents' proficiency in interpreting intricate and long-context instructions, leveraging prior knowledge, and adapting to dynamic instruction quality via implicit policy awareness. The toolkit comprehensively assesses distinct capabilities in structured data comprehension, function execution, instruction following, and critical reasoning. DrafterBench offers detailed analysis of task accuracy and error statistics, aiming to provide deeper insight into agent capabilities and identify improvement targets for integrating LLMs in engineering applications. Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench, with the test set hosted at https://huggingface.co/datasets/Eason666/DrafterBench.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。
しかし、例えばシビルエンジニアリングにおいて、産業の観点から自動化エージェントを体系的に評価するためには、より多くのベンチマークが必要である。
そこで本稿では,LLMエージェントの総合評価のためのDrafterBenchを提案する。
DrafterBenchには現実世界の描画ファイルから要約された12種類のタスクがあり、46のカスタマイズされた機能/ツールと1920のタスクがある。
DrafterBenchは、AIエージェントが複雑で長いコンテキストの命令を解釈し、事前の知識を活用し、暗黙のポリシー認識を通じて動的命令品質に適応する能力を厳格にテストするオープンソースのベンチマークである。
このツールキットは、構造化データ理解、機能実行、命令追従、批判的推論において、異なる機能を包括的に評価する。
DrafterBench氏はタスクの精度とエラー統計を詳細に分析し、エージェント機能に関する深い洞察を提供し、エンジニアリングアプリケーションにLLMを統合するための改善目標を特定することを目的としている。
私たちのベンチマークはhttps://github.com/Eason-Li-AIS/DrafterBenchで、テストセットはhttps://huggingface.co/datasets/Eason666/DrafterBenchでホストされています。
関連論文リスト
- What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents [17.296425855109426]
人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeSeriesGymを紹介する。
TimeSeriesGymには、複数のドメインやタスクにまたがるさまざまなソースからの課題が含まれている。
提出ファイルやコード,モデルなど,複数の研究成果物に対する評価機構を実装した。
論文 参考訳(メタデータ) (2025-05-19T16:11:23Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。