論文の概要: Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations
- arxiv url: http://arxiv.org/abs/2407.08983v1
- Date: Fri, 12 Jul 2024 04:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:46:38.922733
- Title: Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations
- Title(参考訳): 構文記述によるより信頼しやすく解釈可能なLLMのコード化に向けて
- Authors: David N. Palacio, Daniel Rodriguez-Cardenas, Alejandro Velasco, Dipin Khati, Kevin Moran, Denys Poshyvanyk,
- Abstract要約: ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
- 参考スコア(独自算出の注目度): 48.07182711678573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Trustworthiness and interpretability are inextricably linked concepts for LLMs. The more interpretable an LLM is, the more trustworthy it becomes. However, current techniques for interpreting LLMs when applied to code-related tasks largely focus on accuracy measurements, measures of how models react to change, or individual task performance instead of the fine-grained explanations needed at prediction time for greater interpretability, and hence trust. To improve upon this status quo, this paper introduces ASTrust, an interpretability method for LLMs of code that generates explanations grounded in the relationship between model confidence and syntactic structures of programming languages. ASTrust explains generated code in the context of syntax categories based on Abstract Syntax Trees and aids practitioners in understanding model predictions at both local (individual code snippets) and global (larger datasets of code) levels. By distributing and assigning model confidence scores to well-known syntactic structures that exist within ASTs, our approach moves beyond prior techniques that perform token-level confidence mapping by offering a view of model confidence that directly aligns with programming language concepts with which developers are familiar. To put ASTrust into practice, we developed an automated visualization that illustrates the aggregated model confidence scores superimposed on sequence, heat-map, and graph-based visuals of syntactic structures from ASTs. We examine both the practical benefit that ASTrust can provide through a data science study on 12 popular LLMs on a curated set of GitHub repos and the usefulness of ASTrust through a human study.
- Abstract(参考訳): 信頼性と解釈性は、LLMにとって、厳密には結びついている概念である。
LLMが解釈可能なほど、より信頼できるものになります。
しかし、コード関連タスクに適用する場合のLLMの解釈技術は、精度の測定、モデルがどのように変化に反応するかの計測、あるいはより深い解釈可能性のために予測時に必要とされる詳細な説明ではなく個々のタスクパフォーマンスに重点を置いている。
本稿では,モデル信頼度とプログラミング言語の構文構造との関係を基礎とした説明を生成する,LLMの解釈可能性手法であるASTrustを紹介する。
ASTrustは抽象構文木に基づく構文カテゴリのコンテキストで生成されたコードを説明し、ローカル(個別のコードスニペット)とグローバル(コードのより大きなデータセット)のレベルでモデル予測を理解する実践者を支援する。
AST内に存在するよく知られた構文構造にモデルの信頼度スコアを分配し割り当てることにより、当社のアプローチは、開発者が親しんだプログラミング言語の概念と直接一致するモデル信頼度ビューを提供することにより、トークンレベルの信頼度マッピングを実行する従来の技術を超えた。
ASTrustを実践するために,ASTからの構文構造のシーケンス,熱マップ,グラフに基づく可視化に重畳されたモデル信頼性スコアを自動可視化する手法を開発した。
我々は、GitHubリポジトリのキュレートされたセット上での12の人気のあるLCMに関するデータサイエンス研究を通じてASTrustがもたらす実用的なメリットと、人間による研究によるASTrustの有用性について検討する。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - LMs: Understanding Code Syntax and Semantics for Code Analysis [25.508254718438636]
我々は,大規模言語モデル(LLM)の機能と,ソフトウェア工学におけるコード解析の限界を評価する。
GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという,最先端の4つの基礎モデルを採用している。
論文 参考訳(メタデータ) (2023-05-20T08:43:49Z) - Large Language Models are Few-Shot Summarizers: Multi-Intent Comment
Generation via In-Context Learning [34.006227676170504]
本研究では,大規模言語モデル(LLM)を用いて,開発者の多様な意図を満たすコメントを生成することの実現可能性について検討する。
2つの大規模なデータセットの実験は、私たちの洞察の理論的根拠を示しています。
論文 参考訳(メタデータ) (2023-04-22T12:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。