論文の概要: NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations
- arxiv url: http://arxiv.org/abs/2406.19783v1
- Date: Fri, 28 Jun 2024 09:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.994754
- Title: NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations
- Title(参考訳): NLPerturbator:LLMの自然言語変化に対するロバスト性に関する研究
- Authors: Junkai Chen, Zhenhao Li, Xing Hu, Xin Xia,
- Abstract要約: 大規模言語モデル(LLM)は、与えられた自然言語記述に基づいてコード生成において有望な結果を達成する。
本稿では,実世界のシナリオにおいて,LLMが自然言語記述のバリエーションに頑健であるかを検討する。
我々は,一組のプロンプトを与えられた各カテゴリの摂動を実行できる自動フレームワーク,NLPerturbatorを提案する。
- 参考スコア(独自算出の注目度): 13.899386963946332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve promising results in code generation based on a given natural language description. They have been integrated into open-source projects and commercial products to facilitate daily coding activities. The natural language description in the prompt is crucial for LLMs to comprehend users' requirements. Prior studies uncover that LLMs are sensitive to the changes in the prompts, including slight changes that look inconspicuous. However, the natural language descriptions often vary in real-world scenarios (e.g., different formats, grammar, and wording). Prior studies on the robustness of LLMs are often based on random perturbations and such perturbations may not actually happen. In this paper, we conduct a comprehensive study to investigate how are code LLMs robust to variations of natural language description in real-world scenarios. We summarize 18 categories of perturbations of natural language and 3 combinations of co-occurred categories based on our literature review and an online survey with practitioners. We propose an automated framework, NLPerturbator, which can perform perturbations of each category given a set of prompts. Through a series of experiments on code generation using six code LLMs, we find that the perturbed prompts can decrease the performance of code generation by a considerable margin (e.g., up to 21.2%, and 4.8% to 6.1% on average). Our study highlights the importance of enhancing the robustness of LLMs to real-world variations in the prompts, as well as the essentiality of attentively constructing the prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、与えられた自然言語記述に基づいてコード生成において有望な結果を達成する。
それらは、日々のコーディング活動を促進するために、オープンソースプロジェクトや商用製品に統合されている。
このプロンプトにおける自然言語の記述は、LCMがユーザの要求を理解するのに不可欠である。
以前の研究では、LSMがプロンプトの変化に敏感であることが判明した。
しかし、自然言語の記述は現実世界のシナリオ(例えば、異なる形式、文法、単語など)によって異なることが多い。
LLMの堅牢性に関する以前の研究は、しばしばランダムな摂動に基づいており、そのような摂動は実際には起こらないかもしれない。
本稿では,実世界のシナリオにおける自然言語記述のバリエーションに対して,LLMが頑健であるかを総合的に検討する。
本稿では,自然言語の摂動18カテゴリーと,文献レビューと実践者によるオンライン調査に基づく共起カテゴリーの3つの組み合わせを要約する。
我々は,一組のプロンプトを与えられた各カテゴリの摂動を実行できる自動フレームワーク,NLPerturbatorを提案する。
6つのコードLLMを使ったコード生成に関する一連の実験により、乱れたプロンプトはコード生成の性能をかなりのマージン(例えば、21.2%まで、平均4.8%から6.1%まで)に低下させることができることがわかった。
本研究は,実世界のプロンプトの変動に対するLDMの堅牢性を高めることの重要性と,プロンプトを注意深く構築することの重要性を強調した。
関連論文リスト
- Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。
この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-19T20:39:12Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Several categories of Large Language Models (LLMs): A Short Survey [3.73538163699716]
大規模言語モデル(LLM)は、自然言語処理の効果的なツールとなり、様々な分野で使われてきた。
この調査は、タスクベースの金融LLM、多言語LLM、バイオメディカルおよび臨床LLM、ビジョン言語LLM、コード言語モデルなど、近年のLLMの発展と取り組みを強調している。
論文 参考訳(メタデータ) (2023-07-05T18:18:23Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。