論文の概要: RobuNFR: Evaluating the Robustness of Large Language Models on Non-Functional Requirements Aware Code Generation
- arxiv url: http://arxiv.org/abs/2503.22851v2
- Date: Thu, 03 Apr 2025 00:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:20.562838
- Title: RobuNFR: Evaluating the Robustness of Large Language Models on Non-Functional Requirements Aware Code Generation
- Title(参考訳): RobuNFR: コード生成を意識したノンファンクション要求に基づく大規模言語モデルのロバスト性の評価
- Authors: Feng Lin, Dong Jae Kim, Zhenhao Li, Jinqiu Yang, Tse-Hsun, Chen,
- Abstract要約: NFR対応コード生成におけるLLMのロバスト性を評価するため,RobuNFRを提案する。
実験の結果,コード生成におけるNFRを考慮した場合,RobuNFRは試験LLMの問題を明らかにすることがわかった。
- 参考スコア(独自算出の注目度): 52.87427601131587
- License:
- Abstract: When using LLMs to address Non-Functional Requirements (NFRs), developers may behave differently (e.g., expressing the same NFR in different words). Robust LLMs should output consistent results across these variations; however, this aspect remains underexplored. We propose RobuNFR for evaluating the robustness of LLMs in NFR-aware code generation across four NFR dimensions: design, readability, reliability, and performance, using three methodologies: prompt variation, regression testing, and diverse workflows. Our experiments show that RobuNFR reveals robustness issues in the tested LLMs when considering NFRs in code generation. Specifically, under prompt variation, including NFRs leads to a decrease in Pass@1 by up to 39 percent and an increase in the standard deviation from 0.48 to 2.48 compared to the baseline without NFRs (i.e., Function-Only). While incorporating NFRs generally improves overall NFR metrics, it also results in higher prompt sensitivity. In regression settings, some LLMs exhibit differences across versions, with improvements in one aspect (e.g., reduced code smells) often accompanied by regressions in another (e.g., decreased correctness), revealing inconsistencies that challenge their robustness. When varying workflows, the tested LLMs show significantly different NFR-aware code generation capabilities between two workflows: (1) integrating NFRs and functional requirements into the initial prompt and (2) enhancing Function-Only-generated code with the same NFR.
- Abstract(参考訳): 非Functional Requirements (NFR) に LLM を使う場合、開発者は異なる振る舞いをする(例えば、異なる単語で同じNFRを表現する)。
ロバスト LLM はこれらの変種にまたがって一貫した結果を出力すべきであるが、この側面はいまだ過小評価されている。
設計,可読性,信頼性,性能の4つの NFR 次元にまたがるコード生成における LLM の堅牢性を評価するための RobuNFR を提案する。
実験の結果,コード生成におけるNFRを考慮した場合,RobuNFRはLLMのロバスト性に問題があることがわかった。
具体的には、NFRを含む急激な変動の下では、Pass@1は最大で39%減少し、標準偏差はNFRを持たないベースライン(ファンクションオンリー)に比べて0.48から2.48に増加する。
NFRを組み込むことで、全体的なNFR測定値が向上する一方、即時感度も向上する。
回帰設定では、ある側面(例:コードの臭いの低減)の改善、別の側面(例:正確さの低下)の回帰を伴うことがあり、その堅牢性に挑戦する不整合が明らかになる。
1)NFRと機能要件を初期プロンプトに統合し、(2)同じNFRでファンクションオンリー生成コードを拡張する。
関連論文リスト
- The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study [2.7731115923558143]
大規模言語モデル (LLM) は, NLP タスクにおいて顕著な性能を示したが, 高品質な対実数 (CF) の生成における有効性はいまだ不明である。
我々は、いくつかの共通LCMを比較し、そのCFを評価し、本質的なメトリクスとこれらのCFがデータ拡張に与える影響を評価した。
その結果, LLMは流動性CFを生成するが, 誘導される変化を最小限に抑えるのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-26T11:57:21Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Prompt-prompted Adaptive Structured Pruning for Efficient LLM Generation [31.657608562937543]
本稿では,GRIFFINについて紹介する。GRIFFINはトレーニング不要かつ校正不要な手法で,シーケンスレベルで独自のFFエキスパートを選択して効率よく生成する。
GRIFFINは、様々な分類タスクと生成タスクをほとんどあるいは全く分解することなく、オリジナルのモデルの性能を維持している。
論文 参考訳(メタデータ) (2024-04-01T17:56:06Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Randomized Smoothing with Masked Inference for Adversarially Robust Text
Classifications [3.6048665052465667]
ランダム化平滑化(RS)とマスク推論(MI)を組み合わせた新しい2段階のフレームワークであるRSMIを導入し,NLPシステムの対角的ロバスト性を改善する。
RSは分類器をスムーズな分類器に変換してロバストな表現を得る一方、MIは入力シーケンスでマスクされたトークンの周囲のコンテキストを利用するようにモデルを強制する。
RSMIは、ベンチマークデータセット上の既存の最先端メソッドよりも2倍から3倍の敵の堅牢性を向上する。
論文 参考訳(メタデータ) (2023-05-11T01:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。