論文の概要: On the Reliability and Explainability of Language Models for Program
Generation
- arxiv url: http://arxiv.org/abs/2302.09587v3
- Date: Mon, 8 Jan 2024 13:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:27:40.442333
- Title: On the Reliability and Explainability of Language Models for Program
Generation
- Title(参考訳): プログラム生成のための言語モデルの信頼性と説明可能性について
- Authors: Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Li Li
- Abstract要約: 自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
- 参考スコア(独自算出の注目度): 15.569926313298337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have adopted pre-trained language models, such as CodeT5 and
CodeGPT, for automated program generation tasks like code generation, repair,
and translation. Numerous language model-based approaches have been proposed
and evaluated on various benchmark datasets, demonstrating promising
performance. However, there is still uncertainty about the reliability of these
models, particularly their realistic ability to consistently transform code
sequences. This raises the question: are these techniques sufficiently
trustworthy for automated program generation? Consequently, Further research is
needed to understand model logic and assess reliability and explainability. To
bridge these research gaps, we conduct a thorough empirical study of eight
popular language models on five representative datasets to determine the
capabilities and limitations of automated program generation approaches. We
further employ advanced explainable AI approaches to highlight the tokens that
significantly contribute to the code transformation. We discover that
state-of-the-art approaches suffer from inappropriate performance evaluation
stemming from severe data duplication, causing over-optimistic results. Our
explainability analysis reveals that, in various experimental scenarios,
language models can recognize code grammar and structural information, but they
exhibit limited robustness to changes in input sequences. Overall, more
rigorous evaluation approaches and benchmarks are critical to enhance the
reliability and explainability of automated program generation moving forward.
Our findings provide important guidelines for this goal.
- Abstract(参考訳): 近年の研究では、コード生成、修復、翻訳といった自動プログラム生成タスクに、CodeT5やCodeGPTといった事前訓練された言語モデルが採用されている。
多くの言語モデルに基づくアプローチが提案され、様々なベンチマークデータセットで評価され、有望な性能を示す。
しかし、これらのモデルの信頼性、特にコードシーケンスを一貫して変換する現実的な能力についてはまだ不確実性がある。
これらのテクニックは、プログラムの自動生成に十分な信頼性がありますか?
したがって、モデル論理を理解し、信頼性と説明可能性を評価するためのさらなる研究が必要である。
これらの研究ギャップを埋めるため、5つの代表的なデータセット上で8つのポピュラー言語モデルを徹底的に実験し、自動プログラム生成手法の能力と限界を決定する。
さらに、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
現状のアプローチは、重度のデータ重複に起因する不適切な性能評価に悩まされ、過度な最適化結果をもたらすことが判明した。
説明可能性分析の結果,様々な実験シナリオにおいて,言語モデルはコード文法や構造情報を認識できるが,入力シーケンスの変化に対して限定的な頑健性を示すことが明らかになった。
全体として、より厳密な評価手法とベンチマークは、自動プログラム生成の信頼性と説明可能性を高めるために重要である。
我々の発見は、この目標に重要なガイドラインを提供する。
関連論文リスト
- On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。
提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文 参考訳(メタデータ) (2024-08-21T00:17:59Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。