Fugu-MT 論文翻訳(概要): Extracting Meaningful Attention on Source Code: An Empirical Study of Developer and Neural Model Code Exploration

論文の概要: Extracting Meaningful Attention on Source Code: An Empirical Study of Developer and Neural Model Code Exploration

arxiv url: http://arxiv.org/abs/2210.05506v1
Date: Tue, 11 Oct 2022 14:58:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 15:19:49.739813
Title: Extracting Meaningful Attention on Source Code: An Empirical Study of Developer and Neural Model Code Exploration
Title（参考訳）: ソースコードに意味のある注意を抽出する:開発者とニューラルモデルコードの探索に関する実証的研究
Authors: Matteo Paltenghi, Rahul Pandita, Austin Z. Henley, Albert Ziegler
Abstract要約: この研究は、コード探索をサポートするためにこれらの貴重な注意重みを後処理する複数のアプローチを比較する。具体的には,大規模かつ一般公開されたトレーニング済みのニューラルネットワークであるCodeGenの注目信号が,開発者がコードを見たり,探索したりする方法とどの程度一致しているかを比較した。また,完全解析解を用いた事前学習モデルの注意信号の実用的適用についても紹介する。
参考スコア（独自算出の注目度）: 4.644827993583995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The high effectiveness of neural models of code, such as OpenAI Codex and AlphaCode, suggests coding capabilities of models that are at least comparable to those of humans. However, previous work has only used these models for their raw completion, ignoring how the model reasoning, in the form of attention weights, can be used for other downstream tasks. Disregarding the attention weights means discarding a considerable portion of what those models compute when queried. To profit more from the knowledge embedded in these large pre-trained models, this work compares multiple approaches to post-process these valuable attention weights for supporting code exploration. Specifically, we compare to which extent the transformed attention signal of CodeGen, a large and publicly available pretrained neural model, agrees with how developers look at and explore code when each answering the same sense-making questions about code. At the core of our experimental evaluation, we collect, manually annotate, and open-source a novel eye-tracking dataset comprising 25 developers answering sense-making questions on code over 92 sessions. We empirically evaluate five attention-agnostic heuristics and ten attention-based post processing approaches of the attention signal against our ground truth of developers exploring code, including the novel concept of follow-up attention which exhibits the highest agreement. Beyond the dataset contribution and the empirical study, we also introduce a novel practical application of the attention signal of pre-trained models with completely analytical solutions, going beyond how neural models' attention mechanisms have traditionally been used.
Abstract（参考訳）: OpenAI CodexやAlphaCodeのようなコードのニューラルモデルの有効性は、少なくとも人間のものと同等のモデルのコーディング能力を示唆している。しかし、従来の研究はこれらのモデルを生の完成のためにのみ使用しており、モデル推論が注意重みの形で他の下流タスクにどのように使用できるかを無視している。注意重みを無視することは、それらのモデルが問い合わせた時に計算したもののかなりの部分を破棄することを意味する。この研究は、これらの大規模な事前訓練モデルに埋め込まれた知識から利益を得るために、コード探索をサポートするためにこれらの貴重な注意重みを後処理する複数のアプローチを比較します。具体的には、大きくて一般公開されているトレーニング済みのニューラルモデルであるcodegenの注意信号が、開発者がコードについて同じ意味を持つ質問に答えるときに、どのようにコードを見たり、探ったりするかを比較します。実験的な評価の核心は、92セッション以上のコードでセンスメイキングの質問に答える25人の開発者からなる、新しいアイトラッキングデータセットを収集し、手作業で注釈付けし、オープンソースにしました。コード探索を行う開発者の基礎的真実に対する注意信号の5つの注意非依存的ヒューリスティックと10の注意に基づくポスト処理アプローチを実証的に評価した。データセットの寄与と実験的な研究以外にも、神経モデルの注意メカニズムが伝統的に用いられてきたことを超えて、完全に分析的な解決策を備えた事前訓練されたモデルの注意信号の新しい実践的応用も紹介する。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
Automatic Bias Detection in Source Code Review [2.3480418671346164]
本稿では,コードレビューにおける潜在的なバイアスのある結果を検出するための制御実験を提案する。我々は、レビュー画面上の焦点領域を決定するために、レビュアの視線を追跡する認知フレームワークである「注目のスポットライトモデル」を採用している。我々はマルコフモデル、リカレントニューラルネットワーク(RNN)、条件付きランダム場(CRF)などの高度なシーケンスモデリング手法を用いて、視線焦点のシーケンスを分析する計画である。
論文参考訳（メタデータ） (2025-04-25T16:01:52Z)
Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。 MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文参考訳（メタデータ） (2025-03-22T22:13:14Z)
Enhancing Code LLM Training with Programmer Attention [11.622059894637683]
プログラマの注意グラフを拡大するための視線追跡経路拡張手法を提案する。我々はまた、生の修正を学習可能な注意モチーフに洗練するパターン抽象化のステップも導入する。コード要約のためのCodeXGlueベンチマークでは,CodeBLEUで+7.16が得られた。
論文参考訳（メタデータ） (2025-03-19T06:44:29Z)
EnseSmells: Deep ensemble and programming language models for automated code smells detection [3.974095344344234]
ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-07T15:35:19Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文参考訳（メタデータ） (2024-10-04T14:52:09Z)
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。 CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文参考訳（メタデータ） (2024-06-18T06:52:14Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文参考訳（メタデータ） (2023-11-22T16:34:12Z)
Towards Modeling Human Attention from Eye Movements for Neural Source Code Summarization [6.435578628605734]
視線追跡データを用いて、人間の注意のモデルを作成します。このモデルは、ソースコードのどの単語がコードの要約において最も重要なのかを予測する。我々は、他のバイオインスパイアされたニューラルモデルに則って、拡張アプローチの予測性能の改善を観察する。
論文参考訳（メタデータ） (2023-05-16T19:56:45Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。モデル信号認識における最大4.8倍の改善を実現している。
論文参考訳（メタデータ） (2021-11-10T17:58:18Z)
Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-09T17:46:22Z)
Demystifying Code Summarization Models [5.608277537412537]
我々は、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。本稿では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-09T03:17:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。