論文の概要: Do Machines and Humans Focus on Similar Code? Exploring Explainability
of Large Language Models in Code Summarization
- arxiv url: http://arxiv.org/abs/2402.14182v1
- Date: Thu, 22 Feb 2024 00:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:51:32.024570
- Title: Do Machines and Humans Focus on Similar Code? Exploring Explainability
of Large Language Models in Code Summarization
- Title(参考訳): 機械と人間は類似のコードにフォーカスするか?
コード要約における大規模言語モデルの説明可能性の探索
- Authors: Jiliang Li, Yifan Zhang, Zachary Karas, Collin McMillan, Kevin Leach,
Yu Huang
- Abstract要約: 人間の理解のレンズによるコード要約における言語モデルの説明可能性に関する調査の結果を報告する。
我々は、現在最先端のモデル非依存、ブラックボックス、摂動に基づくアプローチであるSHAPを用いて、どのコードトークンが要約の生成に影響を与えるかを特定する。
本研究は、SHAPに基づくモデル焦点測定と人間の焦点を合わせることができないことを明らかにする。
- 参考スコア(独自算出の注目度): 10.201463330812167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent language models have demonstrated proficiency in summarizing source
code. However, as in many other domains of machine learning, language models of
code lack sufficient explainability. Informally, we lack a formulaic or
intuitive understanding of what and how models learn from code. Explainability
of language models can be partially provided if, as the models learn to produce
higher-quality code summaries, they also align in deeming the same code parts
important as those identified by human programmers. In this paper, we report
negative results from our investigation of explainability of language models in
code summarization through the lens of human comprehension. We measure human
focus on code using eye-tracking metrics such as fixation counts and duration
in code summarization tasks. To approximate language model focus, we employ a
state-of-the-art model-agnostic, black-box, perturbation-based approach, SHAP
(SHapley Additive exPlanations), to identify which code tokens influence that
generation of summaries. Using these settings, we find no statistically
significant relationship between language models' focus and human programmers'
attention. Furthermore, alignment between model and human foci in this setting
does not seem to dictate the quality of the LLM-generated summaries. Our study
highlights an inability to align human focus with SHAP-based model focus
measures. This result calls for future investigation of multiple open questions
for explainable language models for code summarization and software engineering
tasks in general, including the training mechanisms of language models for
code, whether there is an alignment between human and model attention on code,
whether human attention can improve the development of language models, and
what other model focus measures are appropriate for improving explainability.
- Abstract(参考訳): 最近の言語モデルはソースコードの要約に熟練している。
しかし、機械学習の他の多くの分野と同様に、コードの言語モデルには十分な説明性がない。
非公式には、モデルがどのようにしてコードから学習するか、という公式的で直感的な理解が欠けている。
言語モデルの説明性は、モデルが高品質なコード要約を作成することを学ぶと、人間のプログラマが識別する部分と同じコード部分を選択するのにも役立ちます。
本稿では,人間の理解のレンズによるコード要約における言語モデルの説明可能性の検討から,ネガティブな結果を報告する。
コード要約タスクにおける固定数や持続時間などのアイトラッキング指標を用いて、人間のコードのフォーカスを測定する。
言語モデルの焦点を近似するために、我々は最先端のモデル非依存、ブラックボックス、摂動に基づくアプローチ、SHAP(SHapley Additive exPlanations)を用いて、どのコードトークンが要約の生成に影響を与えるかを特定する。
これらの設定を用いて、言語モデルの焦点と人間のプログラマの注意との間に統計的に有意な関係は見つからない。
さらに、この設定におけるモデルと人間の焦点のアライメントは、llm生成要約の品質を左右しないようである。
本研究は、SHAPに基づくモデル焦点測定と人間の焦点を合わせることができないことを明らかにする。
この結果は、コード要約およびソフトウェア工学タスクにおける説明可能な言語モデルに関する複数のオープンな質問を将来の調査に求め、コードのための言語モデルのトレーニングメカニズム、コードに人間とモデルの注意が一致しているかどうか、人間の注意が言語モデルの開発を改善することができるかどうか、そして、他のモデル焦点が説明可能性を改善するのに適しているか、などである。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Curriculum Learning for Small Code Language Models [0.09999629695552192]
本稿では,プログラム言語モデルの性能向上におけるカリキュラム学習の可能性について考察する。
十分に設計されたカリキュラム学習手法は,デコーダのみの小さな言語モデルの精度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-07-14T13:32:24Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Towards Understanding What Code Language Models Learned [10.989953856458996]
事前訓練された言語モデルは、様々な自然言語処理に有効である。
彼らの能力は、完全に学習する意味や言語を理解する能力に欠けている、と論じられている。
本研究は,表面周波数と共起を超越した,コードのセマンティクスをキャプチャする能力について考察する。
論文 参考訳(メタデータ) (2023-06-20T23:42:14Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。