Fugu-MT 論文翻訳(概要): On the Reliability and Explainability of Language Models for Program Generation

論文の概要: On the Reliability and Explainability of Language Models for Program Generation

arxiv url: http://arxiv.org/abs/2302.09587v3
Date: Mon, 8 Jan 2024 13:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 00:27:40.442333
Title: On the Reliability and Explainability of Language Models for Program Generation
Title（参考訳）: プログラム生成のための言語モデルの信頼性と説明可能性について
Authors: Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Li Li
Abstract要約: 自動プログラム生成手法の能力と限界について検討する。私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
参考スコア（独自算出の注目度）: 15.569926313298337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have adopted pre-trained language models, such as CodeT5 and CodeGPT, for automated program generation tasks like code generation, repair, and translation. Numerous language model-based approaches have been proposed and evaluated on various benchmark datasets, demonstrating promising performance. However, there is still uncertainty about the reliability of these models, particularly their realistic ability to consistently transform code sequences. This raises the question: are these techniques sufficiently trustworthy for automated program generation? Consequently, Further research is needed to understand model logic and assess reliability and explainability. To bridge these research gaps, we conduct a thorough empirical study of eight popular language models on five representative datasets to determine the capabilities and limitations of automated program generation approaches. We further employ advanced explainable AI approaches to highlight the tokens that significantly contribute to the code transformation. We discover that state-of-the-art approaches suffer from inappropriate performance evaluation stemming from severe data duplication, causing over-optimistic results. Our explainability analysis reveals that, in various experimental scenarios, language models can recognize code grammar and structural information, but they exhibit limited robustness to changes in input sequences. Overall, more rigorous evaluation approaches and benchmarks are critical to enhance the reliability and explainability of automated program generation moving forward. Our findings provide important guidelines for this goal.
Abstract（参考訳）: 近年の研究では、コード生成、修復、翻訳といった自動プログラム生成タスクに、CodeT5やCodeGPTといった事前訓練された言語モデルが採用されている。多くの言語モデルに基づくアプローチが提案され、様々なベンチマークデータセットで評価され、有望な性能を示す。しかし、これらのモデルの信頼性、特にコードシーケンスを一貫して変換する現実的な能力についてはまだ不確実性がある。これらのテクニックは、プログラムの自動生成に十分な信頼性がありますか? したがって、モデル論理を理解し、信頼性と説明可能性を評価するためのさらなる研究が必要である。これらの研究ギャップを埋めるため、5つの代表的なデータセット上で8つのポピュラー言語モデルを徹底的に実験し、自動プログラム生成手法の能力と限界を決定する。さらに、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。現状のアプローチは、重度のデータ重複に起因する不適切な性能評価に悩まされ、過度な最適化結果をもたらすことが判明した。説明可能性分析の結果,様々な実験シナリオにおいて,言語モデルはコード文法や構造情報を認識できるが,入力シーケンスの変化に対して限定的な頑健性を示すことが明らかになった。全体として、より厳密な評価手法とベンチマークは、自動プログラム生成の信頼性と説明可能性を高めるために重要である。我々の発見は、この目標に重要なガイドラインを提供する。

関連論文リスト

Metamorphic Testing of Deep Code Models: A Systematic Literature Review [9.09091334696889]
コードインテリジェンス用に設計された大規模言語モデルとディープラーニングモデルは、ソフトウェア工学分野に革命をもたらした。これらのモデルは、コード補完、欠陥検出、コード要約といったタスクにおいて、高い精度でソースコードとソフトウェアアーチファクトを処理できる。強靭性は、異なる条件下で異なる結果が得られるため、ディープ・コード・モデルにとって重要な品質特性であり続けている。
論文参考訳（メタデータ） (2025-07-30T12:25:30Z)
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。 VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2025-05-12T09:14:20Z)
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳（メタデータ） (2025-03-21T01:00:45Z)
Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文参考訳（メタデータ） (2025-01-02T14:20:36Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文参考訳（メタデータ） (2024-11-29T07:00:47Z)
On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文参考訳（メタデータ） (2024-10-04T14:08:02Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文参考訳（メタデータ） (2024-08-21T00:17:59Z)
Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-07-29T09:05:10Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。 Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文参考訳（メタデータ） (2022-07-15T11:39:37Z)
Evaluating the Robustness of Neural Language Models to Input Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文参考訳（メタデータ） (2021-08-27T12:31:17Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。