Fugu-MT 論文翻訳(概要): PCEval: A Benchmark for Evaluating Physical Computing Capabilities of Large Language Models

論文の概要: PCEval: A Benchmark for Evaluating Physical Computing Capabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2601.02404v1
Date: Wed, 31 Dec 2025 22:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-07 17:02:12.63279
Title: PCEval: A Benchmark for Evaluating Physical Computing Capabilities of Large Language Models
Title（参考訳）: PCEval: 大規模言語モデルの物理計算能力評価ベンチマーク
Authors: Inpyo Song, Eunji Jeon, Jangwon Lee,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。 textscPCEvalは物理コンピューティングにおける最初のベンチマークであり、LLMの能力の完全な自動評価を可能にする。
参考スコア（独自算出の注目度）: 2.99040583186815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, including software development, education, and technical assistance. Among these, software development is one of the key areas where LLMs are increasingly adopted. However, when hardware constraints are considered-for instance, in physical computing, where software must interact with and control physical hardware -their effectiveness has not been fully explored. To address this gap, we introduce \textsc{PCEval} (Physical Computing Evaluation), the first benchmark in physical computing that enables a fully automatic evaluation of the capabilities of LLM in both the logical and physical aspects of the projects, without requiring human assessment. Our evaluation framework assesses LLMs in generating circuits and producing compatible code across varying levels of project complexity. Through comprehensive testing of 13 leading models, \textsc{PCEval} provides the first reproducible and automatically validated empirical assessment of LLMs' ability to reason about fundamental hardware implementation constraints within a simulation environment. Our findings reveal that while LLMs perform well in code generation and logical circuit design, they struggle significantly with physical breadboard layout creation, particularly in managing proper pin connections and avoiding circuit errors. \textsc{PCEval} advances our understanding of AI assistance in hardware-dependent computing environments and establishes a foundation for developing more effective tools to support physical computing education.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェア開発、教育、技術支援など、様々な領域で顕著な機能を示している。中でもソフトウェア開発は,LSMがますます採用される重要な領域のひとつです。しかし、ハードウェアの制約が考慮されている場合、例えば物理コンピューティングでは、ソフトウェアが物理ハードウェアと相互作用し制御する必要がある。このギャップに対処するために、我々は、人間の評価を必要とせず、プロジェクトの論理的側面と物理的側面の両方においてLLMの機能を完全に自動評価できる物理コンピューティングにおける最初のベンチマークである「textsc{PCEval} (Physical Computing Evaluation)」を紹介した。評価フレームワークは、様々なレベルのプロジェクトの複雑さに対して、回路の生成と互換性のあるコードの生成においてLLMを評価する。 13の先行モデルの包括的なテストを通じて、シミュレーション環境におけるハードウェア実装の基本的な制約を推論するLLMの能力を再現可能かつ自動検証した最初の実験的評価を提供する。この結果から,LLMはコード生成や論理回路設計において良好に機能するが,特に適切なピン接続の管理や回路エラーの回避など,物理パンボードのレイアウト生成にかなり苦労していることがわかった。ハードウェア依存型コンピューティング環境におけるAI支援の理解を深め、物理コンピューティング教育を支援するためのより効果的なツールを開発するための基盤を確立する。

関連論文リスト

Testing the Untestable? An Empirical Study on the Testing Process of LLM-Powered Software Systems [0.0]
本研究では,実世界のアプリケーション開発において,大規模言語モデルがどのようにテストされるかを検討する。ケーススタディは、LLMを利用したアプリケーションを大学コースの一部として構築・展開した学生によって書かれた99の個人レポートを用いて実施された。結果: LLMを利用したシステムをテストするには, 従来の検証手法に適応し, ソースレベルの推論と行動認識評価をブレンドする必要がある。
論文参考訳（メタデータ） (2025-07-31T22:39:24Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文参考訳（メタデータ） (2025-05-12T14:05:23Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
Do Large Language Models Understand Performance Optimization? [0.9320657506524149]
大規模言語モデル(LLM)は、コード補完、翻訳、最適化といったソフトウェア開発タスクのための強力なツールとして登場した。本稿では,複数の重要なHPC計算モチーフを含むベンチマークスイートについて,最先端のLLMで最適化されたコードの性能を評価する。
論文参考訳（メタデータ） (2025-03-17T23:30:23Z)
Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文参考訳（メタデータ） (2025-02-19T17:53:59Z)
Specifications: The missing link to making the development of LLM systems an engineering discipline [65.10077876035417]
我々は、構造化出力、プロセスの監督、テストタイム計算など、これまでの分野の進歩について論じる。モジュール型かつ信頼性の高いLCMシステムの開発に向けた研究の今後の方向性について概説する。
論文参考訳（メタデータ） (2024-11-25T07:48:31Z)
RITFIS: Robust input testing framework for LLMs-based intelligent software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。 RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。 LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文参考訳（メタデータ） (2024-02-21T04:00:54Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。