Fugu-MT 論文翻訳(概要): Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models

論文の概要: Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models

arxiv url: http://arxiv.org/abs/2601.12951v1
Date: Mon, 19 Jan 2026 10:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.873984
Title: Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models
Title（参考訳）: 正確性を超えて:(大規模)言語モデルにおけるコード理解能力の特徴
Authors: Felix Mächtle, Jan-Niclas Serr, Nils Loose, Thomas Eisenbarth,
Abstract要約: 本稿では,Large Language Modelsのコード理解性能が従来の人間中心のソフトウェアメトリクスと一致しているかを検討する。コード理解をバイナリインプット・アウトプット整合性タスクとして再編成する診断フレームワークを導入する。
参考スコア（独自算出の注目度）: 4.841487377596519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly integrated into software engineering workflows, yet current benchmarks provide only coarse performance summaries that obscure the diverse capabilities and limitations of these models. This paper investigates whether LLMs' code-comprehension performance aligns with traditional human-centric software metrics or instead reflects distinct, non-human regularities. We introduce a diagnostic framework that reframes code understanding as a binary input-output consistency task, enabling the evaluation of classification and generative models. Using a large-scale dataset, we correlate model performance with traditional, human-centric complexity metrics, such as lexical size, control-flow complexity, and abstract syntax tree structure. Our analyses reveal minimal correlation between human-defined metrics and LLM success (AUROC 0.63), while shadow models achieve substantially higher predictive performance (AUROC 0.86), capturing complex, partially predictable patterns beyond traditional software measures. These findings suggest that LLM comprehension reflects model-specific regularities only partially accessible through either human-designed or learned features, emphasizing the need for benchmark methodologies that move beyond aggregate accuracy and toward instance-level diagnostics, while acknowledging fundamental limits in predicting correct outcomes.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングワークフローにますます統合されていますが、現在のベンチマークでは、これらのモデルのさまざまな機能や制限を曖昧にするような、粗いパフォーマンスサマリのみを提供しています。本稿では,LLMのコード理解性能が従来の人間中心のソフトウェアメトリクスと一致しているか,それとも,異なる非人間正規性を反映しているかを検討する。本稿では、コード理解をバイナリ入力出力整合性タスクとして再編成し、分類と生成モデルの評価を可能にする診断フレームワークを提案する。大規模なデータセットを使用して、モデルパフォーマンスを、語彙サイズ、制御フローの複雑さ、抽象構文木構造といった従来の人間中心の複雑性メトリクスと比較する。分析の結果,人間の定義値とLLM成功率の相関は最小限に抑えられ (AUROC 0.63) , 影モデルにより予測性能が著しく向上し (AUROC 0.86) , 従来のソフトウェア手法を超える複雑な予測可能なパターンを捉えることができた。これらの結果から, LLM の理解は, 人間の設計した機能や学習した機能を通じてのみ部分的にのみアクセス可能なモデル固有規則を反映し, 総合的精度を越え, インスタンスレベルの診断へ向けたベンチマーク手法の必要性を強調し, 正しい結果を予測する上での基本的な限界を認めていることが示唆された。

関連論文リスト

LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。 LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。 LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文参考訳（メタデータ） (2025-11-04T08:11:23Z)
Uncovering the Computational Ingredients of Human-Like Representations in LLMs [8.00888290370075]
人のような表現を発達させるモデルを構築する上で、これらの材料のうちどれが最も重要なのかは、いまだに不明である。現在のベンチマークのほとんどは、人間とモデルの間の表現的アライメントの測定には適していない。
論文参考訳（メタデータ） (2025-10-01T15:37:19Z)
Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文参考訳（メタデータ） (2025-08-24T15:00:51Z)
Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-24T09:49:53Z)
SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。 SCANには4つの重要なコンポーネントが含まれている。 TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。 RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。 PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文参考訳（メタデータ） (2024-06-15T12:02:14Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。