論文の概要: Demystifying Code Summarization Models
- arxiv url: http://arxiv.org/abs/2102.04625v1
- Date: Tue, 9 Feb 2021 03:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 01:05:48.985409
- Title: Demystifying Code Summarization Models
- Title(参考訳): Demystifying Code Summarization Models
- Authors: Yu Wang, Fengjuan Gao, Linzhang Wang
- Abstract要約: 我々は、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。
結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。
本稿では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.608277537412537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last decade has witnessed a rapid advance in machine learning models.
While the black-box nature of these systems allows powerful predictions, it
cannot be directly explained, posing a threat to the continuing democratization
of machine learning technology.
Tackling the challenge of model explainability, research has made significant
progress in demystifying the image classification models. In the same spirit of
these works, this paper studies code summarization models, particularly, given
an input program for which a model makes a prediction, our goal is to reveal
the key features that the model uses for predicting the label of the program.
We realize our approach in HouYi, which we use to evaluate four prominent code
summarization models: extreme summarizer, code2vec, code2seq, and sequence GNN.
Results show that all models base their predictions on syntactic and lexical
properties with little to none semantic implication. Based on this finding, we
present a novel approach to explaining the predictions of code summarization
models through the lens of training data.
Our work opens up this exciting, new direction of studying what models have
learned from source code.
- Abstract(参考訳): 過去10年間、機械学習モデルの急速な進歩を目撃してきた。
これらのシステムのブラックボックスの性質は強力な予測を可能にするが、直接説明することはできず、機械学習技術の民主化の継続を脅かす。
モデル説明可能性の課題に対処する研究は、画像分類モデルのデミススティフィケーションにおいて大きな進歩を遂げた。
そこで,本研究では,モデルが予測を行う入力プログラムを想定したコード要約モデルについて検討し,そのモデルがプログラムのラベル予測に使用する重要な特徴を明らかにすることを目的とする。
我々はHouYiでのアプローチを実現し、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。
結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。
そこで本研究では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。
私たちの仕事は、モデルがソースコードから学んだことを研究する、この刺激的で新しい方向を開きます。
関連論文リスト
- Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。
CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。
本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文 参考訳(メタデータ) (2022-01-13T21:38:33Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Hierarchical Predictive Coding Models in a Deep-Learning Framework [1.370633147306388]
予測符号化の最もよく知られたモデルをいくつかレビューする。
また、これらのモデルをディープラーニングフレームワークに組み込もうとする最近の試みについても調査する。
論文 参考訳(メタデータ) (2020-05-07T03:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。