論文の概要: Extracting Meaningful Attention on Source Code: An Empirical Study of
Developer and Neural Model Code Exploration
- arxiv url: http://arxiv.org/abs/2210.05506v1
- Date: Tue, 11 Oct 2022 14:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:19:49.739813
- Title: Extracting Meaningful Attention on Source Code: An Empirical Study of
Developer and Neural Model Code Exploration
- Title(参考訳): ソースコードに意味のある注意を抽出する:開発者とニューラルモデルコードの探索に関する実証的研究
- Authors: Matteo Paltenghi, Rahul Pandita, Austin Z. Henley, Albert Ziegler
- Abstract要約: この研究は、コード探索をサポートするためにこれらの貴重な注意重みを後処理する複数のアプローチを比較する。
具体的には,大規模かつ一般公開されたトレーニング済みのニューラルネットワークであるCodeGenの注目信号が,開発者がコードを見たり,探索したりする方法とどの程度一致しているかを比較した。
また,完全解析解を用いた事前学習モデルの注意信号の実用的適用についても紹介する。
- 参考スコア(独自算出の注目度): 4.644827993583995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high effectiveness of neural models of code, such as OpenAI Codex and
AlphaCode, suggests coding capabilities of models that are at least comparable
to those of humans. However, previous work has only used these models for their
raw completion, ignoring how the model reasoning, in the form of attention
weights, can be used for other downstream tasks. Disregarding the attention
weights means discarding a considerable portion of what those models compute
when queried. To profit more from the knowledge embedded in these large
pre-trained models, this work compares multiple approaches to post-process
these valuable attention weights for supporting code exploration. Specifically,
we compare to which extent the transformed attention signal of CodeGen, a large
and publicly available pretrained neural model, agrees with how developers look
at and explore code when each answering the same sense-making questions about
code. At the core of our experimental evaluation, we collect, manually
annotate, and open-source a novel eye-tracking dataset comprising 25 developers
answering sense-making questions on code over 92 sessions. We empirically
evaluate five attention-agnostic heuristics and ten attention-based post
processing approaches of the attention signal against our ground truth of
developers exploring code, including the novel concept of follow-up attention
which exhibits the highest agreement. Beyond the dataset contribution and the
empirical study, we also introduce a novel practical application of the
attention signal of pre-trained models with completely analytical solutions,
going beyond how neural models' attention mechanisms have traditionally been
used.
- Abstract(参考訳): OpenAI CodexやAlphaCodeのようなコードのニューラルモデルの有効性は、少なくとも人間のものと同等のモデルのコーディング能力を示唆している。
しかし、従来の研究はこれらのモデルを生の完成のためにのみ使用しており、モデル推論が注意重みの形で他の下流タスクにどのように使用できるかを無視している。
注意重みを無視することは、それらのモデルが問い合わせた時に計算したもののかなりの部分を破棄することを意味する。
この研究は、これらの大規模な事前訓練モデルに埋め込まれた知識から利益を得るために、コード探索をサポートするためにこれらの貴重な注意重みを後処理する複数のアプローチを比較します。
具体的には、大きくて一般公開されているトレーニング済みのニューラルモデルであるcodegenの注意信号が、開発者がコードについて同じ意味を持つ質問に答えるときに、どのようにコードを見たり、探ったりするかを比較します。
実験的な評価の核心は、92セッション以上のコードでセンスメイキングの質問に答える25人の開発者からなる、新しいアイトラッキングデータセットを収集し、手作業で注釈付けし、オープンソースにしました。
コード探索を行う開発者の基礎的真実に対する注意信号の5つの注意非依存的ヒューリスティックと10の注意に基づくポスト処理アプローチを実証的に評価した。
データセットの寄与と実験的な研究以外にも、神経モデルの注意メカニズムが伝統的に用いられてきたことを超えて、完全に分析的な解決策を備えた事前訓練されたモデルの注意信号の新しい実践的応用も紹介する。
関連論文リスト
- Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - Towards Modeling Human Attention from Eye Movements for Neural Source
Code Summarization [6.435578628605734]
視線追跡データを用いて、人間の注意のモデルを作成します。
このモデルは、ソースコードのどの単語がコードの要約において最も重要なのかを予測する。
我々は、他のバイオインスパイアされたニューラルモデルに則って、拡張アプローチの予測性能の改善を観察する。
論文 参考訳(メタデータ) (2023-05-16T19:56:45Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Demystifying Code Summarization Models [5.608277537412537]
我々は、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。
結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。
本稿では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T03:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。