論文の概要: Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures
- arxiv url: http://arxiv.org/abs/2308.03873v1
- Date: Mon, 7 Aug 2023 18:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 15:15:34.740317
- Title: Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures
- Title(参考訳): 構文構造を用いたコードのための大規模言語モデルの評価と説明
- Authors: David N Palacio, Alejandro Velasco, Daniel Rodriguez-Cardenas, Kevin
Moran, Denys Poshyvanyk
- Abstract要約: 本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
- 参考スコア(独自算出の注目度): 74.93762031957883
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) for code are a family of high-parameter,
transformer-based neural networks pre-trained on massive datasets of both
natural and programming languages. These models are rapidly being employed in
commercial AI-based developer tools, such as GitHub CoPilot. However, measuring
and explaining their effectiveness on programming tasks is a challenging
proposition, given their size and complexity. The methods for evaluating and
explaining LLMs for code are inextricably linked. That is, in order to explain
a model's predictions, they must be reliably mapped to fine-grained,
understandable concepts. Once this mapping is achieved, new methods for
detailed model evaluations are possible. However, most current explainability
techniques and evaluation benchmarks focus on model robustness or individual
task performance, as opposed to interpreting model predictions.
To this end, this paper introduces ASTxplainer, an explainability method
specific to LLMs for code that enables both new methods for LLM evaluation and
visualizations of LLM predictions that aid end-users in understanding model
predictions. At its core, ASTxplainer provides an automated method for aligning
token predictions with AST nodes, by extracting and aggregating normalized
model logits within AST structures. To demonstrate the practical benefit of
ASTxplainer, we illustrate the insights that our framework can provide by
performing an empirical evaluation on 12 popular LLMs for code using a curated
dataset of the most popular GitHub projects. Additionally, we perform a user
study examining the usefulness of an ASTxplainer-derived visualization of model
predictions aimed at enabling model users to explain predictions. The results
of these studies illustrate the potential for ASTxplainer to provide insights
into LLM effectiveness, and aid end-users in understanding predictions.
- Abstract(参考訳): コードのための大規模言語モデル(LLM)は、自然言語とプログラミング言語の両方の巨大なデータセットで事前訓練された高パラメータ、トランスフォーマーベースのニューラルネットワークのファミリーである。
これらのモデルは、GitHub CoPilotのような商用AIベースの開発ツールに急速に採用されている。
しかし、その大きさと複雑さを考えると、プログラミングタスクの有効性の測定と説明は難しい命題である。
コードに対するllmの評価と説明の方法は、必然的にリンクされる。
すなわち、モデルの予測を説明するために、それらはきめ細かな理解可能な概念に確実にマッピングされなければならない。
このマッピングが達成されれば、詳細なモデル評価のための新しい方法が可能になる。
しかしながら、現在の説明可能性技術や評価ベンチマークのほとんどは、モデル予測の解釈とは対照的に、モデルの堅牢性や個々のタスクパフォーマンスに重点を置いている。
この目的のために, ASTxplainerは, LLM評価のための新しい手法と, モデル予測の理解を支援するLCM予測の可視化を可能にするコード用LCMに特有の説明可能性手法である。
その中核にあるASTxplainerは、AST構造内の正規化モデルロジットを抽出し集約することにより、トークン予測をASTノードに整合させる自動メソッドを提供する。
astxplainerの実際的なメリットを示すために、最も人気のあるgithubプロジェクトのキュレートされたデータセットを使用して、12の人気のあるllmで実証的な評価を行うことで、フレームワークが提供できる洞察を説明します。
さらに,モデルユーザが予測を説明することを目的とした,ASTxplainerによるモデル予測の可視化の有用性を検討する。
これらの研究結果は、ASTxplainerがLLMの有効性についての洞察を提供し、エンドユーザが予測を理解するのを助ける可能性を示している。
関連論文リスト
- Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。