論文の概要: BuildArena: A Physics-Aligned Interactive Benchmark of LLMs for Engineering Construction
- arxiv url: http://arxiv.org/abs/2510.16559v1
- Date: Sat, 18 Oct 2025 16:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.038881
- Title: BuildArena: A Physics-Aligned Interactive Benchmark of LLMs for Engineering Construction
- Title(参考訳): BuildArena: エンジニアリング構築のためのLLMの物理対応型インタラクティブベンチマーク
- Authors: Tian Xia, Tianrun Gao, Wenhao Deng, Long Wei, Xiaowei Qian, Yixian Jiang, Chenglei Yu, Tailin Wu,
- Abstract要約: BuildArenaは、言語駆動エンジニアリング構築用に設計された最初の物理対応のインタラクティブベンチマークである。
1)LLMの詳細な比較と分析のための高度にカスタマイズ可能なベンチマークフレームワーク,2)複数の難易度層にまたがる静的および動的力学を網羅する拡張可能なタスク設計戦略,(3)言語命令に基づく構築を支援する3次元空間幾何学計算ライブラリである。
- 参考スコア(独自算出の注目度): 11.450127891454267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering construction automation aims to transform natural language specifications into physically viable structures, requiring complex integrated reasoning under strict physical constraints. While modern LLMs possess broad knowledge and strong reasoning capabilities that make them promising candidates for this domain, their construction competencies remain largely unevaluated. To address this gap, we introduce BuildArena, the first physics-aligned interactive benchmark designed for language-driven engineering construction. It contributes to the community in four aspects: (1) a highly customizable benchmarking framework for in-depth comparison and analysis of LLMs; (2) an extendable task design strategy spanning static and dynamic mechanics across multiple difficulty tiers; (3) a 3D Spatial Geometric Computation Library for supporting construction based on language instructions; (4) a baseline LLM agentic workflow that effectively evaluates diverse model capabilities. On eight frontier LLMs, BuildArena comprehensively evaluates their capabilities for language-driven and physics-grounded construction automation. The project page is at https://build-arena.github.io/.
- Abstract(参考訳): エンジニアリング構築自動化は、自然言語仕様を物理的に実行可能な構造に変えることを目的としており、厳密な物理的制約の下で複雑な統合推論を必要とする。
現代のLLMには、この領域の有望な候補となる幅広い知識と強力な推論能力があるが、建設能力はほとんど評価されていない。
このギャップに対処するため、私たちは、言語駆動エンジニアリング構築のために設計された最初の物理対応の対話型ベンチマークであるBuildArenaを紹介します。
1)LLMの詳細な比較と分析のための高度にカスタマイズ可能なベンチマークフレームワーク,(2)複数の難易度層にまたがる静的および動的力学にまたがる拡張可能なタスク設計戦略,(3)言語命令に基づく構築を支援する3次元空間幾何学計算ライブラリ,(4)多様なモデル能力を効果的に評価するベースラインLLMエージェントワークフロー。
8つのフロンティア LLM において、BuildArena は言語駆動および物理地上構築自動化の能力を総合的に評価している。
プロジェクトページはhttps://build-arena.github.io/にある。
関連論文リスト
- Agentic Design of Compositional Machines [26.167638081496914]
大規模言語モデル(LLM)が機械の製作を学べるかどうかを検討する。
BesiegeFieldは、マシンビルディングゲームBesiege上に作られたテストベッドだ。
エージェントを用いて最先端のRLをベンチマークし、成功に必要な重要な機能を特定します。
論文 参考訳(メタデータ) (2025-10-16T17:59:58Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - Integrating Large Language Models for Automated Structural Analysis [0.7373617024876725]
本稿では,Large Language Models (LLM) と構造解析ソフトウェアを統合するフレームワークを提案する。
LLMはテキストから構造記述を解析し、それらをPythonスクリプトに変換する。
ドメイン固有のプロンプト設計とコンテキスト内学習戦略を採用し、LLMの問題解決能力と生成安定性を高める。
論文 参考訳(メタデータ) (2025-04-13T23:10:33Z) - FEABench: Evaluating Language Models on Multiphysics Reasoning Ability [8.441945838936444]
FEABenchは、有限要素解析(FEA)を用いて物理学、数学、工学の問題をシミュレートし、解決する大規模言語モデル(LLM)とLLMエージェントの能力を評価するためのベンチマークである。
本研究では,自然言語問題の記述を推論し,FEAソフトウェアであるCOMSOL Multiphysics$circledR$を動作させることにより,LLMがこの問題をエンドツーエンドで解決できるかどうかを総合的に評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T17:59:39Z) - Specifications: The missing link to making the development of LLM systems an engineering discipline [65.10077876035417]
我々は、構造化出力、プロセスの監督、テストタイム計算など、これまでの分野の進歩について論じる。
モジュール型かつ信頼性の高いLCMシステムの開発に向けた研究の今後の方向性について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:48:31Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - LLM4EDA: Emerging Progress in Large Language Models for Electronic
Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。
本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。
論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文 参考訳(メタデータ) (2023-12-28T15:09:14Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。