論文の概要: Demystifying What Code Summarization Models Learned
- arxiv url: http://arxiv.org/abs/2303.02333v1
- Date: Sat, 4 Mar 2023 06:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:13:41.132160
- Title: Demystifying What Code Summarization Models Learned
- Title(参考訳): コード要約モデルが学んだこと
- Authors: Yu Wang, Ke Wang
- Abstract要約: 本稿では,コード要約モデルによって発見されたパターンの形式的定義について述べる。
コード要約モデルによって発見されたパターンを要約するためのCFGを生成する。
本稿では,パターンの形式的定義の例として,ロバスト性を評価する新しい手法と,コード要約モデルの精度向上のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 8.726377148162834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Study patterns that models have learned has long been a focus of pattern
recognition research. Explaining what patterns are discovered from training
data, and how patterns are generalized to unseen data are instrumental to
understanding and advancing the pattern recognition methods. Unfortunately, the
vast majority of the application domains deal with continuous data (i.e.
statistical in nature) out of which extracted patterns can not be formally
defined. For example, in image classification, there does not exist a principle
definition for a label of cat or dog. Even in natural language, the meaning of
a word can vary with the context it is surrounded by. Unlike the aforementioned
data format, programs are a unique data structure with a well-defined syntax
and semantics, which creates a golden opportunity to formalize what models have
learned from source code. This paper presents the first formal definition of
patterns discovered by code summarization models (i.e. models that predict the
name of a method given its body), and gives a sound algorithm to infer a
context-free grammar (CFG) that formally describes the learned patterns.
We realize our approach in PATIC which produces CFGs for summarizing the
patterns discovered by code summarization models. In particular, we pick two
prominent instances, code2vec and code2seq, to evaluate PATIC. PATIC shows that
the patterns extracted by each model are heavily restricted to local, and
syntactic code structures with little to none semantic implication. Based on
these findings, we present two example uses of the formal definition of
patterns: a new method for evaluating the robustness and a new technique for
improving the accuracy of code summarization models.
Our work opens up this exciting, new direction of studying what models have
learned from source code.
- Abstract(参考訳): モデルが学んだ研究パターンは、長い間パターン認識研究の焦点であった。
トレーニングデータからどのようなパターンが検出されるのか、パターンが見えないデータにどのように一般化されるかを説明することは、パターン認識方法を理解し、前進させるのに役立つ。
残念なことに、ほとんどのアプリケーションドメインは、抽出されたパターンが正式に定義できない連続的なデータ(すなわち、統計的な性質)を扱う。
例えば、画像分類では、猫や犬のラベルの原則的定義は存在しない。
自然言語においても、単語の意味は、その単語が囲んでいる文脈によって異なる。
前述のデータフォーマットとは異なり、プログラムは明確な構文とセマンティクスを持つユニークなデータ構造であり、モデルがソースコードから学んだことを形式化する絶好の機会を生み出します。
本稿では、コード要約モデル(体に与えられたメソッドの名前を予測するモデル)によって発見されたパターンを初めて形式的に定義し、学習パターンを形式的に記述する文脈自由文法(CFG)を推論する音響アルゴリズムを提案する。
コード要約モデルによって発見されたパターンを要約するcfgsを生成するpaticのアプローチを実現する。
特に、PATICを評価するために、code2vecとcode2seqという2つの顕著なインスタンスを選択します。
PATICは、各モデルによって抽出されたパターンが局所的および統語的コード構造にほとんど意味を含まないことを示している。
これらの結果に基づき,パターンの形式的定義の2つの例を示す。ロバスト性を評価する新しい手法と,コード要約モデルの精度を向上させる新しい手法である。
私たちの研究は、ソースコードからモデルが学んだことを研究する、エキサイティングで新しい方向性を開きます。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Towards Understanding What Code Language Models Learned [10.989953856458996]
事前訓練された言語モデルは、様々な自然言語処理に有効である。
彼らの能力は、完全に学習する意味や言語を理解する能力に欠けている、と論じられている。
本研究は,表面周波数と共起を超越した,コードのセマンティクスをキャプチャする能力について考察する。
論文 参考訳(メタデータ) (2023-06-20T23:42:14Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Integrating Pattern- and Fact-based Fake News Detection via Model
Preference Learning [6.92027612631023]
パターンベースモデルとファクトベースモデルを一つのフレームワークに統合する問題について検討する。
提案するPreference-aware Fake News Detection Framework (Pref-FEND) は,共同検出のためのパターンモデルとファクトベースモデルの各好みを学習する。
論文 参考訳(メタデータ) (2021-09-23T12:28:55Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Using Wavelets and Spectral Methods to Study Patterns in
Image-Classification Datasets [14.041012529932612]
我々はウェーブレット変換とスペクトル法を用いて画像分類データセットの内容を分析する。
データセットから特定のパターンを抽出し、パターンとクラスの関係を見つける。
本手法は,これらのデータセットの学習可能性を理解し,解釈するためのパターン認識手法として利用できる。
論文 参考訳(メタデータ) (2020-06-17T13:58:24Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。