Fugu-MT 論文翻訳(概要): CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models

論文の概要: CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models

arxiv url: http://arxiv.org/abs/2604.05755v1
Date: Tue, 07 Apr 2026 11:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.797173
Title: CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models
Title（参考訳）: CAKE: 大規模言語モデルのクラウドアーキテクチャ知識評価
Authors: Tim Lukas Adam, Phongsakon Mark Konrad, Riccardo Terrenzi, Florian Girardo Lukas, Rahime Yilmaz, Krzysztof Sierszecki, Serkan Ayvaz,
Abstract要約: CAKEは、ブルームの改訂された分類学の4つの認知レベルに関する188人の専門家による検証された質問で構成されている。マルチチョイス質問(MCQ)とフリーレスポンス(FR)のためのLCM-as-a-judgeスコア(FR)を併用した22種類のモデル構成の評価を行った。
参考スコア（独自算出の注目度）: 1.1140384738063094
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In today's software architecture, large language models (LLMs) serve as software architecture co-pilots. However, no benchmark currently exists to evaluate large language models' actual understanding of cloud-native software architecture. For this reason we present a benchmark called CAKE, which consists of 188 expert-validated questions covering four cognitive levels of Bloom's revised taxonomy -- recall, analyze, design, and implement -- and five cloud-native topics. Evaluation is conducted on 22 model configurations (0.5B--70B parameters) across four LLM families, using three-run majority voting for multiple-choice questions (MCQs) and LLM-as-a-judge scoring for free-responses (FR). Based on this evaluation, four notable findings were identified. First, MCQ accuracy plateaus above 3B parameters, with the best model reaching 99.2\%. Second, free-response scores scale steadily across all cognitive levels. Third, the two formats capture different facets of knowledge, as the MCQ accuracy approaches a ceiling while free-responses continue to differentiate models. Finally, reasoning augmentation (+think) improves free-response quality, while tool augmentation (+tool) degrades performance for small models. These results suggest that the evaluation format fundamentally shapes how we measure architectural knowledge in LLMs.
Abstract（参考訳）: 今日のソフトウェアアーキテクチャでは、大きな言語モデル(LLM)がソフトウェアアーキテクチャの共同パイロットとして機能します。しかし、大規模な言語モデルによるクラウドネイティブなソフトウェアアーキテクチャの実際の理解を評価するためのベンチマークは、今のところ存在しない。このような理由から、Bloomの改訂された分類(リコール、分析、設計、実装)の4つの認知レベルと、5つのクラウドネイティブトピックに関する188のエキスパート検証済みの質問からなる、CAKEというベンチマークを提示します。 LLMファミリーのモデル構成(0.5B--70Bパラメータ)について,MCQ(Multiple-choice Question)とFR(Free-Responses)のLCM-as-a-judgeスコア(LLM-as-judge score)を用いて評価を行った。この評価から,4つの顕著な所見が認められた。まず、MCQの精度は3Bパラメータよりも高く、最良のモデルは99.2\%に達する。第二に、自由応答スコアはすべての認知レベルにわたって着実にスケールする。第3に、MCQの精度が天井に近づき、フリーレスポンスはモデルを差別化し続けるため、2つのフォーマットは異なる知識の側面を捉えている。最後に、推論強化(+think)はフリーレスポンスの品質を改善し、ツール拡張(+tool)は小さなモデルのパフォーマンスを低下させる。これらの結果から,LLMにおけるアーキテクチャ知識の計測方法について,評価形式が根本的に変化していることが示唆された。

関連論文リスト

Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy [28.293009223912602]
オープンエンド質問応答(英語: Open-ended Question answering, QA)は、モデルが事実的リコールを超えた文脈的推論を行う能力を評価する。この課題は、知識が手続き的であり、専門的な判断が下されている、実践ベースの領域で特に深刻である。ブルームの分類学から得られた専門家認可ガイドラインから自動ベンチマーク生成のためのフレームワークを紹介する。
論文参考訳（メタデータ） (2026-01-28T05:01:11Z)
RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文参考訳（メタデータ） (2026-01-14T11:37:00Z)
CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task [49.27354010985993]
LLM(Large Language Models)の最近の進歩は、その能力を大幅に強化している。既存のベンチマークでは、LLM能力を評価するための総合的なフレームワークが欠如しているため、孤立した能力に重点を置いていることが多い。本稿では,3次元にまたがるモデルの性能を包括的に測定するコグニション・ドメイン・タスク(CDT)フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-29T08:10:29Z)
COMPKE: Complex Question Answering under Knowledge Editing [10.447078471142044]
現在のベンチマークでは、主にマルチホップ質問応答を使用して、新しく注入された知識や更新された知識を評価し分析している。我々は,現実の状況を反映した11,924の複雑な質問を含む,知識編集下での複合質問回答(CompKE: Complex Question Answering)という新しいベンチマークを導入する。我々は4つの知識編集手法をCompKE上で広範囲に評価し、その効果が異なるモデルで顕著に異なることを示した。
論文参考訳（メタデータ） (2025-06-01T04:26:46Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Towards Automated Identification of Violation Symptoms of Architecture Erosion [2.915855887948474]
本稿では,コードレビューにおける開発者の議論から,違反症状の自動識別について検討する。我々は,事前学習した単語埋め込みを用いた15の機械学習に基づく分類器を開発し,コードレビューのコメントで評価した。その結果, word2vec を用いた SVM は F1 スコア 0.779 で最高の ML/DL 性能を示した。
論文参考訳（メタデータ） (2023-06-14T16:20:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。