論文の概要: Information-Theoretic Detection of Unusual Source Code Changes
- arxiv url: http://arxiv.org/abs/2506.06508v1
- Date: Fri, 06 Jun 2025 20:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.301922
- Title: Information-Theoretic Detection of Unusual Source Code Changes
- Title(参考訳): 未知のソースコード変化の情報理論による検出
- Authors: Adriano Torres, Sebastian Baltes, Christoph Treude, Markus Wagner,
- Abstract要約: 我々は,オープンソースプロジェクトのソースコードの情報内容を情報理論の観点から測定する。
私たちの焦点は、トークンと抽象構文木ノードという、2つの基本的なコード表現のエントロピーにあります。
我々はエントロピーに基づく異常検出を行い、我々のアプローチが60%以上の精度で異常なソースコード変更イベントを効果的に認識できることを示した。
- 参考スコア(独自算出の注目度): 9.866028041332479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The code base of software projects evolves essentially through inserting and removing information to and from the source code. We can measure this evolution via the elements of information - tokens, words, nodes - of the respective representation of the code. In this work, we approach the measurement of the information content of the source code of open-source projects from an information-theoretic standpoint. Our focus is on the entropy of two fundamental representations of code: tokens and abstract syntax tree nodes, from which we derive definitions of textual and structural entropy. We proceed with an empirical assessment where we evaluate the evolution patterns of the entropy of 95 actively maintained open source projects. We calculate the statistical relationships between our derived entropy metrics and classic methods of measuring code complexity and learn that entropy may capture different dimensions of complexity than classic metrics. Finally, we conduct entropy-based anomaly detection of unusual changes to demonstrate that our approach may effectively recognise unusual source code change events with over 60% precision, and lay the groundwork for improvements to information-theoretic measurement of source code evolution, thus paving the way for a new approach to statically gauging program complexity throughout its development.
- Abstract(参考訳): ソフトウェアプロジェクトのコードベースは基本的に、ソースコードへの情報挿入と削除によって進化します。
コードの各表現のトークン、ワード、ノードといった情報要素を通じて、この進化を測定することができます。
本研究では,オープンソースプロジェクトのソースコードの情報量について,情報理論の観点から考察する。
私たちの焦点は、トークンと抽象構文木ノードという2つの基本的なコード表現のエントロピーであり、そこからテキストと構造的エントロピーの定義を導出します。
我々は、95の活発に維持されているオープンソースプロジェクトのエントロピーの進化パターンを評価する実験的な評価を進めた。
導出したエントロピーメトリクスとコード複雑性を測定する古典的な方法との統計的関係を計算し、エントロピーが古典的なメトリクスと異なる次元の複雑さを捉えることを学習する。
最後に、エントロピーに基づく異常な変化の異常検出を行い、我々のアプローチが60%以上の精度で異常なソースコード変更イベントを効果的に認識できることを示し、ソースコードの進化に関する情報理論的な測定の改善の基礎を築き、プログラムの複雑さを静的に増大させる新しいアプローチの道を開いた。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - EnseSmells: Deep ensemble and programming language models for automated code smells detection [3.974095344344234]
ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。
本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T15:35:19Z) - Defect Prediction with Content-based Features [3.765563438775143]
従来の欠陥予測アプローチでは、ソフトウェアシステムの設計や実装の複雑さを測定するメトリクスを使うことが多い。
本稿では,ソースコードの内容に基づく異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2024-09-27T00:49:27Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Encoding Version History Context for Better Code Representation [13.045078976464307]
本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
論文 参考訳(メタデータ) (2024-02-06T07:35:36Z) - An Optimal, Universal and Agnostic Decoding Method for Message Reconstruction, Bio and Technosignature Detection [0.14061979259370275]
本稿では,ゼロ知識の一方向通信チャネルに対する非依存信号再構成手法を提案する。
本研究では,非ランダムメッセージが意図した物理的特性に関する情報をエンコードする方法について検討する。
論文 参考訳(メタデータ) (2023-03-28T15:20:25Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。