論文の概要: On the Reliability and Explainability of Language Models for Program
Generation
- arxiv url: http://arxiv.org/abs/2302.09587v3
- Date: Mon, 8 Jan 2024 13:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:27:40.442333
- Title: On the Reliability and Explainability of Language Models for Program
Generation
- Title(参考訳): プログラム生成のための言語モデルの信頼性と説明可能性について
- Authors: Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Li Li
- Abstract要約: 自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
- 参考スコア(独自算出の注目度): 15.569926313298337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have adopted pre-trained language models, such as CodeT5 and
CodeGPT, for automated program generation tasks like code generation, repair,
and translation. Numerous language model-based approaches have been proposed
and evaluated on various benchmark datasets, demonstrating promising
performance. However, there is still uncertainty about the reliability of these
models, particularly their realistic ability to consistently transform code
sequences. This raises the question: are these techniques sufficiently
trustworthy for automated program generation? Consequently, Further research is
needed to understand model logic and assess reliability and explainability. To
bridge these research gaps, we conduct a thorough empirical study of eight
popular language models on five representative datasets to determine the
capabilities and limitations of automated program generation approaches. We
further employ advanced explainable AI approaches to highlight the tokens that
significantly contribute to the code transformation. We discover that
state-of-the-art approaches suffer from inappropriate performance evaluation
stemming from severe data duplication, causing over-optimistic results. Our
explainability analysis reveals that, in various experimental scenarios,
language models can recognize code grammar and structural information, but they
exhibit limited robustness to changes in input sequences. Overall, more
rigorous evaluation approaches and benchmarks are critical to enhance the
reliability and explainability of automated program generation moving forward.
Our findings provide important guidelines for this goal.
- Abstract(参考訳): 近年の研究では、コード生成、修復、翻訳といった自動プログラム生成タスクに、CodeT5やCodeGPTといった事前訓練された言語モデルが採用されている。
多くの言語モデルに基づくアプローチが提案され、様々なベンチマークデータセットで評価され、有望な性能を示す。
しかし、これらのモデルの信頼性、特にコードシーケンスを一貫して変換する現実的な能力についてはまだ不確実性がある。
これらのテクニックは、プログラムの自動生成に十分な信頼性がありますか?
したがって、モデル論理を理解し、信頼性と説明可能性を評価するためのさらなる研究が必要である。
これらの研究ギャップを埋めるため、5つの代表的なデータセット上で8つのポピュラー言語モデルを徹底的に実験し、自動プログラム生成手法の能力と限界を決定する。
さらに、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
現状のアプローチは、重度のデータ重複に起因する不適切な性能評価に悩まされ、過度な最適化結果をもたらすことが判明した。
説明可能性分析の結果,様々な実験シナリオにおいて,言語モデルはコード文法や構造情報を認識できるが,入力シーケンスの変化に対して限定的な頑健性を示すことが明らかになった。
全体として、より厳密な評価手法とベンチマークは、自動プログラム生成の信頼性と説明可能性を高めるために重要である。
我々の発見は、この目標に重要なガイドラインを提供する。
関連論文リスト
- L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。