論文の概要: AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
- arxiv url: http://arxiv.org/abs/2603.29199v1
- Date: Tue, 31 Mar 2026 03:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.07158
- Title: AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
- Title(参考訳): AEC-Bench: アーキテクチャ、エンジニアリング、構築におけるエージェントシステムのためのマルチモーダルベンチマーク
- Authors: Harsh Mankodiya, Chase Gallik, Theodoros Galanos, Andriy Mulyar,
- Abstract要約: AEC-Benchは現実世界のタスクにおいてエージェントシステムを評価するためのベンチマークである。
本報告では、ベンチマークモチベーション、データセット分類、評価プロトコル、ベースライン結果について述べる。
- 参考スコア(独自算出の注目度): 1.1841228164483055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AEC-Bench is a multimodal benchmark for evaluating agentic systems on real-world tasks in the Architecture, Engineering, and Construction (AEC) domain. The benchmark covers tasks requiring drawing understanding, cross-sheet reasoning, and construction project-level coordination. This report describes the benchmark motivation, dataset taxonomy, evaluation protocol, and baseline results across several domain-specific foundation model harnesses. We use AEC-Bench to identify consistent tools and harness design techniques that uniformly improve performance across foundation models in their own base harnesses, such as Claude Code and Codex. We openly release our benchmark dataset, agent harness, and evaluation code for full replicability at https://github.com/nomic-ai/aec-bench under an Apache 2 license.
- Abstract(参考訳): AEC-Benchは、アーキテクチャ、エンジニアリング、建設(AEC)ドメインにおける現実世界のタスクのエージェントシステムを評価するためのマルチモーダルベンチマークである。
このベンチマークは、図面理解、クロスシート推論、建設プロジェクトレベルの調整を必要とするタスクをカバーしている。
本報告では、いくつかのドメイン固有の基盤モデルハーネスのベンチマークモチベーション、データセット分類、評価プロトコル、ベースライン結果について述べる。
AEC-Benchを使って一貫したツールを特定し、Claude CodeやCodexといったベースハーネスの基盤モデル全体のパフォーマンスを均一に向上する設計テクニックを活用します。
Apache 2ライセンスの下で、ベンチマークデータセット、エージェントハーネス、および完全な複製性評価コードをhttps://github.com/nomic-ai/aec-benchで公開しています。
関連論文リスト
- ArchBench: Benchmarking Generative-AI for Software Architecture Tasks [0.0]
ArchBenchは、ソフトウェアアーキテクチャタスクで大規模言語モデルをベンチマークするための最初の統一プラットフォームである。
データセットのダウンロード、トラジェクトリロギングによる推論、自動評価のための標準化されたパイプラインを備えたコマンドラインツールを提供する。
論文 参考訳(メタデータ) (2026-03-18T15:26:46Z) - ArchAgent: Scalable Legacy Software Architecture Recovery with LLMs [44.137226823695066]
ArchAgentはスケーラブルなエージェントベースのフレームワークで、静的解析、適応コードセグメンテーション、LLMによる合成を組み合わせている。
クロスリポジトリから、マルチビューでビジネスに整合したアーキテクチャを再構築する。
ArchAgentは、コンテキストプルーニングによるスケーラブルなダイアグラム生成を導入し、クロスリポジトリデータを統合して、ビジネスクリティカルなモジュールを識別する。
論文 参考訳(メタデータ) (2026-01-19T12:39:05Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models [2.4487691107306655]
KGCEは知識ベース拡張とデュアルグラフ評価フレームワークを統合する新しいベンチマークプラットフォームである。
最初に、104の教育関連タスクからなるデータセットを構築し、Windows、Android、クロスプラットフォームの協調タスクをカバーした。
そこで我々は,学校固有のソフトウェアに固有の知識ベースを組み込んだエージェントシステムを開発した。
論文 参考訳(メタデータ) (2026-01-04T04:39:39Z) - Bench-CoE: a Framework for Collaboration of Experts from Benchmark [6.278928823352044]
大規模言語モデル(LLM)は、知的システムを複数のタスクを処理するために駆動する重要な技術である。
本稿では,ベンチマーク評価を効果的に活用し,専門家コラボレーション(CoE)を可能にするBench-CoEフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T14:03:41Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。