論文の概要: QuArch: A Benchmark for Evaluating LLM Reasoning in Computer Architecture
- arxiv url: http://arxiv.org/abs/2510.22087v1
- Date: Fri, 24 Oct 2025 23:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.815409
- Title: QuArch: A Benchmark for Evaluating LLM Reasoning in Computer Architecture
- Title(参考訳): QuArch: コンピュータアーキテクチャにおけるLLM推論の評価ベンチマーク
- Authors: Shvetank Prakash, Andrew Cheng, Arya Tschand, Mark Mazumder, Varun Gohil, Jeffrey Ma, Jason Yik, Zishen Wan, Jessica Quaye, Elisavet Lydia Alvanaki, Avinash Kumar, Chandrashis Mazumdar, Tuhin Khare, Alexander Ingare, Ikechukwu Uchendu, Radhika Ghosal, Abhishek Tyagi, Chenyu Wang, Andrea Mattia Garavagno, Sarah Gu, Alice Guo, Grace Hur, Luca Carloni, Tushar Krishna, Ankita Nayak, Amir Yazdanbakhsh, Vijay Janapa Reddi,
- Abstract要約: QuArchは、コンピュータアーキテクチャにおける大規模言語モデル(LLM)機能の開発と評価を容易にするために設計された最初のベンチマークである。
評価の結果,フロンティアモデルはドメイン固有の知識を持っているが,高次思考を必要とするスキルに苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 36.842856470579726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of computer architecture, which bridges high-level software abstractions and low-level hardware implementations, remains absent from current large language model (LLM) evaluations. To this end, we present QuArch (pronounced 'quark'), the first benchmark designed to facilitate the development and evaluation of LLM knowledge and reasoning capabilities specifically in computer architecture. QuArch provides a comprehensive collection of 2,671 expert-validated question-answer (QA) pairs covering various aspects of computer architecture, including processor design, memory systems, and interconnection networks. Our evaluation reveals that while frontier models possess domain-specific knowledge, they struggle with skills that require higher-order thinking in computer architecture. Frontier model accuracies vary widely (from 34% to 72%) on these advanced questions, highlighting persistent gaps in architectural reasoning across analysis, design, and implementation QAs. By holistically assessing fundamental skills, QuArch provides a foundation for building and measuring LLM capabilities that can accelerate innovation in computing systems. With over 140 contributors from 40 institutions, this benchmark represents a community effort to set the standard for architectural reasoning in LLM evaluation.
- Abstract(参考訳): 高レベルのソフトウェア抽象化と低レベルのハードウェア実装を橋渡しするコンピュータアーキテクチャの分野は、現在の大規模言語モデル (LLM) 評価に欠けている。
この目的のために,コンピュータアーキテクチャに特化してLLMの知識と推論機能の開発と評価を促進するために設計された最初のベンチマークQuArch(quark)を提案する。
QuArchは,プロセッサ設計やメモリシステム,相互接続ネットワークなど,コンピュータアーキテクチャのさまざまな側面をカバーする,2,671人のエキスパート公認質問応答(QA)ペアの包括的なコレクションを提供する。
評価の結果,フロンティアモデルはドメイン固有の知識を持っているが,コンピュータアーキテクチャにおいて高次思考を必要とするスキルに苦慮していることが明らかとなった。
これらの先進的な質問に対して、フロンティアモデルのアキュラシーは(34%から72%まで)大きく変化し、分析、設計、実装に関するQAのアーキテクチャ的推論において、永続的なギャップが浮き彫りになっている。
QuArchは基本的なスキルを体系的に評価することで、コンピュータシステムのイノベーションを加速するLLM機能の構築と測定の基盤を提供する。
40の機関から140以上のコントリビュータが参加し、このベンチマークはLLM評価におけるアーキテクチャ推論の標準を設定するコミュニティの取り組みを表している。
関連論文リスト
- ArchISMiner: A Framework for Automatic Mining of Architectural Issue-Solution Pairs from Online Developer Communities [6.581259125900377]
本研究は,Stack Overflow (SO) からアーキテクチャ知識をマイニングするフレームワーク ArchISMiner を紹介する。
ArchPIは、従来のML/DLモデル、PLM(Pre-trained Language Models)、LLM(Large Language Models)など、複数のモデルを訓練し、評価する。
ArchISPEは、BERT埋め込みやローカルのTextCNN機能などの多様な機能を活用して、アーキテクチャ上の問題解決ペアを抽出する間接的な教師付きアプローチを採用している。
論文 参考訳(メタデータ) (2025-10-24T18:46:17Z) - MAAD: Automate Software Architecture Design through Knowledge-Driven Multi-Agent Collaboration [20.14573932063689]
アーキテクチャ設計に知識駆動型マルチエージェントシステム(MAS)を利用する自動フレームワークであるMAAD(Multi-Agent Architecture Design)を提案する。
MAADは、要求仕様を協調的に解釈し、アーキテクチャの青写真を作成するために、4つの特殊エージェント(アナリスト、モデル、設計者、評価者)を編成する。
以上の結果から,MAADの優位性は,総合的なアーキテクチャコンポーネントの生成と,洞察に富んだ構造化されたアーキテクチャ評価レポートの提供にあることが示された。
論文 参考訳(メタデータ) (2025-07-28T23:18:25Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。
本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。
実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-26T19:33:35Z) - A quantitative framework for evaluating architectural patterns in ML systems [49.1574468325115]
本研究では,MLシステムにおけるアーキテクチャパターンの定量的評価のための枠組みを提案する。
コスト効率のよいCPUベースの推論のためのスケーラビリティとパフォーマンスメトリクスに注目します。
論文 参考訳(メタデータ) (2025-01-20T15:30:09Z) - QuArch: A Question-Answering Dataset for AI Agents in Computer Architecture [8.683579353811531]
QuArchは、言語モデルによるコンピュータアーキテクチャの理解を評価し、強化するために設計された1500の人間検証された質問対のデータセットである。
最高のクローズドソースモデルは84%の精度を実現し、上位の小さなオープンソースモデルは72%に達しています。
QuArchによる微調整により、モデル精度が最大8%向上し、AI駆動型コンピュータアーキテクチャ研究の基盤を確立する。
論文 参考訳(メタデータ) (2025-01-03T16:55:53Z) - Enhancing Architecture Frameworks by Including Modern Stakeholders and their Views/Viewpoints [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。
10か国25以上の組織から61名の被験者を対象に調査を行った。
論文 参考訳(メタデータ) (2023-08-09T21:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。