論文の概要: NRevisit: A Cognitive Behavioral Metric for Code Understandability Assessment
- arxiv url: http://arxiv.org/abs/2504.18345v1
- Date: Fri, 25 Apr 2025 13:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.780615
- Title: NRevisit: A Cognitive Behavioral Metric for Code Understandability Assessment
- Title(参考訳): NRevisit: コードの理解可能性を評価するための認知行動メトリクス
- Authors: Gao Hao, Haytham Hijazi, Júlio Medeiros, João Durães, Chan Tong Lam, Paulo de Carvalho, Henrique Madeira,
- Abstract要約: 本稿では,動的コード理解可能性評価手法を提案する。
コードを扱う特定のプログラマの観点から、パーソナライズされたコード理解可能性スコアを推定する。
シンプルで低コストで非侵入型のデスクトップアイトラッカーや、標準のコンピュータカメラで簡単に実装できる。
- 参考スコア(独自算出の注目度): 1.513554688029813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring code understandability is both highly relevant and exceptionally challenging. This paper proposes a dynamic code understandability assessment method, which estimates a personalized code understandability score from the perspective of the specific programmer handling the code. The method consists of dynamically dividing the code unit under development or review in code regions (invisible to the programmer) and using the number of revisits (NRevisit) to each region as the primary feature for estimating the code understandability score. This approach removes the uncertainty related to the concept of a "typical programmer" assumed by static software code complexity metrics and can be easily implemented using a simple, low-cost, and non-intrusive desktop eye tracker or even a standard computer camera. This metric was evaluated using cognitive load measured through electroencephalography (EEG) in a controlled experiment with 35 programmers. Results show a very high correlation ranging from rs = 0.9067 to rs = 0.9860 (with p nearly 0) between the scores obtained with different alternatives of NRevisit and the ground truth represented by the EEG measurements of programmers' cognitive load, demonstrating the effectiveness of our approach in reflecting the cognitive effort required for code comprehension. The paper also discusses possible practical applications of NRevisit, including its use in the context of AI-generated code, which is already widely used today.
- Abstract(参考訳): コードの可視性を測定することは、非常に関連性があり、非常に難しい。
本稿では,コードを扱う特定のプログラマの視点から,パーソナライズされたコード理解可能性スコアを推定する動的コード理解可能性評価手法を提案する。
この方法は、開発中のコードユニットを(プログラマには見えない)コード領域で動的に分割し、各領域へのリビジット数(NRevisit)をコード理解可能性スコアを推定する主要な特徴として使用する。
このアプローチは、静的ソフトウェアコードの複雑性メトリクスによって仮定される"典型的なプログラマ"の概念に関する不確実性を排除し、シンプルで低コストで非侵襲的なデスクトップアイトラッカーや、標準のコンピュータカメラを使って簡単に実装できる。
この指標は脳波(EEG)を用いて測定した認知負荷を用いて,35人のプログラマによる制御実験で評価した。
結果より,NRevisitの異なる代替品を用いて得られたスコアと,プログラマの認知負荷の脳波測定で表される基礎的真実との間には,rs = 0.9067 から rs = 0.9860 まで,非常に高い相関関係がみられ,コード理解に必要な認知努力を反映したアプローチの有効性が示された。
本稿は、AI生成コードのコンテキストにおけるNRevisitの使用を含め、NRevisitの実用的な応用の可能性についても論じる。
関連論文リスト
- An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文 参考訳(メタデータ) (2025-03-21T01:00:45Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - A Computational Method for Measuring "Open Codes" in Qualitative Analysis [47.358809793796624]
オープンコーディングは、データセットから"オープンコード"を特定し解釈する、帰納的定性的なプロセスである。
本稿では,「オープンコード」から潜在的なバイアスを系統的に計測し,同定する計算手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Automating the Correctness Assessment of AI-generated Code for Security Contexts [8.009107843106108]
本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。
実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
論文 参考訳(メタデータ) (2023-10-28T22:28:32Z) - Investigating the Impact of Vocabulary Difficulty and Code Naturalness
on Program Comprehension [3.35803394416914]
本研究の目的は,言語習得の観点から可読性と可読性を評価することである。
我々は,それらの相関関係を理解するために統計的解析を行い,可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。
論文 参考訳(メタデータ) (2023-08-25T15:15:00Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Improving Compositionality of Neural Networks by Decoding
Representations to Inputs [83.97012077202882]
我々は、ニューラルネットワークのアクティベーションを制約し、入力に"デコード"するように生成モデルを共同で訓練することで、従来のディープラーニングプログラムの利点を橋渡しする。
本稿では,デオード可能な表現の分布外検出,逆例,校正,公平性への応用を実証する。
論文 参考訳(メタデータ) (2021-06-01T20:07:16Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。