論文の概要: Investigating the Impact of Vocabulary Difficulty and Code Naturalness
on Program Comprehension
- arxiv url: http://arxiv.org/abs/2308.13429v1
- Date: Fri, 25 Aug 2023 15:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:36:47.976684
- Title: Investigating the Impact of Vocabulary Difficulty and Code Naturalness
on Program Comprehension
- Title(参考訳): 語彙難易度とコード自然度がプログラム理解に及ぼす影響の検討
- Authors: Bin Lin, Gregorio Robles
- Abstract要約: 本研究の目的は,言語習得の観点から可読性と可読性を評価することである。
我々は,それらの相関関係を理解するために統計的解析を行い,可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。
- 参考スコア(独自算出の注目度): 3.35803394416914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Context: Developers spend most of their time comprehending source code during
software development. Automatically assessing how readable and understandable
source code is can provide various benefits in different tasks, such as task
triaging and code reviews. While several studies have proposed approaches to
predict software readability and understandability, most of them only focus on
local characteristics of source code. Besides, the performance of
understandability prediction is far from satisfactory.
Objective: In this study, we aim to assess readability and understandability
from the perspective of language acquisition. More specifically, we would like
to investigate whether code readability and understandability are correlated
with the naturalness and vocabulary difficulty of source code.
Method: To assess code naturalness, we adopted the cross-entropy metric,
while we use a manually crafted list of code elements with their assigned
advancement levels to assess the vocabulary difficulty. We will conduct a
statistical analysis to understand their correlations and analyze whether code
naturalness and vocabulary difficulty can be used to improve the performance of
code readability and understandability prediction methods. The study will be
conducted on existing datasets.
- Abstract(参考訳): コンテキスト: 開発者はほとんどの時間をソフトウェア開発でソースコードを理解するのに費やします。
可読性と理解可能なソースコードの評価は、タスクのトリージングやコードレビューなど、さまざまなタスクでさまざまなメリットが期待できる。
いくつかの研究がソフトウェア可読性と可理解性を予測するアプローチを提案しているが、そのほとんどはソースコードの局所的な特性にのみ焦点を当てている。
さらに、可理解性予測のパフォーマンスは満足には程遠い。
目的:本研究では,言語習得の観点から可読性と可読性を評価することを目的とする。
より具体的には、コードの可読性と理解性がソースコードの自然性や語彙難易度と相関しているかどうかを検証したいと思います。
方法: コード自然性を評価するために, 単語の難易度を評価するために, コード要素のリストを手作業で作成するのに対して, クロスエントロピーの指標を採用した。
我々は,それらの相関関係を理解するために統計的解析を行い,コード可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。
研究は既存のデータセットで実施する。
関連論文リスト
- Encoding Version History Context for Better Code Representation [13.045078976464307]
本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
論文 参考訳(メタデータ) (2024-02-06T07:35:36Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Source Code Comprehension: A Contemporary Definition and Conceptual
Model for Empirical Investigation [5.139874302398955]
研究コミュニティはソースコードの理解を概念として定義できていない。
タスクによる暗黙的な定義が一般的であり、つまり、コード理解は実験的なタスクが測るものである。
本稿では,ソースコードの理解を定義し,概念的枠組みを提示する参照作業を構成する。
論文 参考訳(メタデータ) (2023-10-17T14:23:46Z) - Generating Summaries with Controllable Readability Levels [67.34087272813821]
テキストの複雑さ、主題、読者の背景知識など、可読性レベルに影響を与える要因がいくつかある。
現在のテキスト生成アプローチでは制御が洗練されておらず、結果として読者の習熟度にカスタマイズされないテキストが作られる。
可読性を制御するための3つのテキスト生成手法を開発した。命令ベースの可読性制御,要求される可読性と観測される可読性の間のギャップを最小限に抑える強化学習,および,ルックアヘッドを用いて今後の復号化ステップの可読性を評価する復号手法である。
論文 参考訳(メタデータ) (2023-10-16T17:46:26Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Understanding Programs by Exploiting (Fuzzing) Test Cases [26.8259045248779]
プログラムのより深い意味理解を実現するために,入力と出力/振る舞いの関係を学習に取り入れることを提案する。
コードの大部分の実行をトリガーするのに十分な入力を得るために,ファズテストを採用し,ファズチューニングを提案する。
提案手法の有効性は,コードクローン検出とコード分類を含む2つのプログラム理解タスクにおいて検証され,最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-23T01:51:46Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - The Mind Is a Powerful Place: How Showing Code Comprehensibility Metrics
Influences Code Understanding [10.644832702859484]
ソースコードの理解度を示す指標が,ソースコードの理解度を主観的に評価する上で,開発者を悩ませるかどうかを検討する。
その結果、理解度測定値の表示値は、開発者のコード理解度評価に大きく、かつ大きなアンカー効果があることがわかった。
論文 参考訳(メタデータ) (2020-12-16T14:27:45Z) - Adversarial Training for Code Retrieval with Question-Description
Relevance Regularization [34.29822107097347]
入力問題から難しいコードスニペットを生成するために,簡単な逆学習手法を適用した。
本稿では,逆学習の規則化に質問記述の関連性を活用することを提案する。
我々の対角学習法は,最先端モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T19:32:03Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。