Fugu-MT 論文翻訳(概要): On Explaining (Large) Language Models For Code Using Global Code-Based Explanations

論文の概要: On Explaining (Large) Language Models For Code Using Global Code-Based Explanations

arxiv url: http://arxiv.org/abs/2503.16771v1
Date: Fri, 21 Mar 2025 01:00:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.240187
Title: On Explaining (Large) Language Models For Code Using Global Code-Based Explanations
Title（参考訳）: グローバルコードに基づく記述を用いたコード用言語モデルの記述(大規模)について
Authors: David N. Palacio, Dipin Khati, Daniel Rodriguez-Cardenas, Alejandro Velasco, Denys Poshyvanyk,
Abstract要約: Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
参考スコア（独自算出の注目度）: 45.126233498200534
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, Language Models for Code (LLM4Code) have significantly changed the landscape of software engineering (SE) on downstream tasks, such as code generation, by making software development more efficient. Therefore, a growing interest has emerged in further evaluating these Language Models to homogenize the quality assessment of generated code. As the current evaluation process can significantly overreact on accuracy-based metrics, practitioners often seek methods to interpret LLM4Code outputs beyond canonical benchmarks. While the majority of research reports on code generation effectiveness in terms of expected ground truth, scant attention has been paid to LLMs' explanations. In essence, the decision-making process to generate code is hard to interpret. To bridge this evaluation gap, we introduce code rationales (Code$Q$), a technique with rigorous mathematical underpinning, to identify subsets of tokens that can explain individual code predictions. We conducted a thorough Exploratory Analysis to demonstrate the method's applicability and a User Study to understand the usability of code-based explanations. Our evaluation demonstrates that Code$Q$ is a powerful interpretability method to explain how (less) meaningful input concepts (i.e., natural language particle `at') highly impact output generation. Moreover, participants of this study highlighted Code$Q$'s ability to show a causal relationship between the input and output of the model with readable and informative explanations on code completion and test generation tasks. Additionally, Code$Q$ also helps to uncover model rationale, facilitating comparison with a human rationale to promote a fair level of trust and distrust in the model.
Abstract（参考訳）: 近年、Language Models for Code (LLM4Code)は、ソフトウェア開発をより効率的にすることで、コード生成のような下流タスクにおけるソフトウェア工学(SE)の状況を大きく変えている。そのため、生成したコードの品質評価を均質化するために、これらの言語モデルを評価することへの関心が高まっている。現在の評価プロセスは精度に基づくメトリクスで著しく過剰に反応する可能性があるため、実践者は標準ベンチマークを超えてLSM4Code出力を解釈する方法を模索することが多い。コード生成の有効性に関する多くの研究報告は、期待される基礎的真理の観点から報告されているが、LLMの説明には注意が払われている。本質的に、コードを生成するための意思決定プロセスは解釈が難しい。この評価ギャップを埋めるために、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定します。提案手法の適用性を示すための徹底的な探索分析と,コードに基づく説明のユーザビリティを理解するためのユーザスタディを行った。評価の結果,Code$Q$は意味のある入力概念(すなわち自然言語粒子<at')が出力生成にどのように影響するかを説明する強力な解釈可能性法であることがわかった。さらに、この研究の参加者は、コード補完とテスト生成タスクについて、可読かつ情報的な説明でモデルの入力と出力の間に因果関係を示すCode$Q$の能力を強調した。さらに、Code$Q$はモデルの理論的根拠を明らかにするのにも役立ちます。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
From Reasoning to Code: GRPO Optimization for Underrepresented Languages [0.7864304771129751]
本稿では,Qwen 2.5モデルの小型コードバージョンとグループ相対ポリシー最適化を組み合わせた一般化可能なアプローチを提案する。推論によるフィードバックを直接強化学習ループに統合することにより、論理的に一貫性があり、構文的に正確なコードを生成する。
論文参考訳（メタデータ） (2025-05-20T11:28:48Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Pragmatic Reasoning improves LLM Code Generation [34.01862911727194]
大規模言語モデル(LLM)は、自然言語(NL)命令をプログラムコードに変換する上で、驚くべき可能性を示している。この課題に対処するため、研究者はプログラムコードの複数の候補を生成し、それらを再帰して最良の解を識別するアプローチを提案している。我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。
論文参考訳（メタデータ） (2025-02-20T12:44:26Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [0.0]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
A Tool for In-depth Analysis of Code Execution Reasoning of Large Language Models [1.644043499620662]
本稿では,コード実行推論フレームワークの結果を分析する一連のツールであるExeRScopeを紹介する。分析は、より多くのベンチマークを設計することなく、同様の特性を持つコードに一般化することができる。
論文参考訳（メタデータ） (2025-01-30T16:56:08Z)
Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。 OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文参考訳（メタデータ） (2025-01-22T15:04:13Z)
Is Functional Correctness Enough to Evaluate Code Language Models? Exploring Diversity of Generated Codes [17.95094238686012]
言語モデル(LM)は、自然言語の要求からコードを生成する素晴らしい能力を示した。我々は、LMが生成するコードの多様性を、コード生成能力を評価するための重要な基準として強調する。本稿では,コード間の類似性や機能的正しさを指標として,生成コードの多様性を評価するための体系的なアプローチを提案する。
論文参考訳（メタデータ） (2024-08-24T07:40:22Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Understanding Code Semantics: An Evaluation of Transformer Models in Summarization [0.0]
関数と変数名を変更することで,コード要約の有効性を評価する。 3つのプログラミング言語にまたがってデッドコードやコメントコードのような敵を導入します。
論文参考訳（メタデータ） (2023-10-25T02:41:50Z)
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文参考訳（メタデータ） (2023-10-10T14:56:26Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。