論文の概要: EVALOOP: Assessing LLM Robustness in Programming from a Self-consistency Perspective
- arxiv url: http://arxiv.org/abs/2505.12185v2
- Date: Sun, 01 Jun 2025 21:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.389111
- Title: EVALOOP: Assessing LLM Robustness in Programming from a Self-consistency Perspective
- Title(参考訳): EVALOOP: 自己整合性の観点からプログラミングにおけるLLMロバストネスを評価する
- Authors: Sen Fang, Weiyuan Ding, Bowen Xu,
- Abstract要約: 大規模言語モデル(LLM)のプログラミング能力を評価することは、ソフトウェア工学における効果的な利用に不可欠である。
本稿では,自己整合性の観点からロバスト性を評価する新しいアセスメントフレームワークEVALOOPを紹介する。
我々は、EVALOOP上で16個の著名なLCM(例えば、GPT-4.1, O4-mini)を評価し、EVALOOPは通常10ループで5.01%-19.31%のパス@1性能低下を誘導することを示した。
- 参考スコア(独自算出の注目度): 5.762345156477737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the programming capabilities of Large Language Models (LLMs) is crucial for their effective use in software engineering. Current evaluations, however, predominantly measure the accuracy of generated code on static benchmarks, neglecting the critical aspect of model robustness during programming tasks. While adversarial attacks offer insights on model robustness, their effectiveness is limited and evaluation could be constrained. Current adversarial attack methods for robustness evaluation yield inconsistent results, struggling to provide a unified evaluation across different LLMs. We introduce EVALOOP, a novel assessment framework that evaluate the robustness from a self-consistency perspective, i.e., leveraging the natural duality inherent in popular software engineering tasks, e.g., code generation and code summarization. EVALOOP initiates a self-contained feedback loop: an LLM generates output (e.g., code) from an input (e.g., natural language specification), and then use the generated output as the input to produce a new output (e.g., summarizes that code into a new specification). EVALOOP repeats the process to assess the effectiveness of EVALOOP in each loop. This cyclical strategy intrinsically evaluates robustness without rely on any external attack setups, providing a unified metric to evaluate LLMs' robustness in programming. We evaluate 16 prominent LLMs (e.g., GPT-4.1, O4-mini) on EVALOOP and found that EVALOOP typically induces a 5.01%-19.31% absolute drop in pass@1 performance within ten loops. Intriguingly, robustness does not always align with initial performance (i.e., one-time query); for instance, GPT-3.5-Turbo, despite superior initial code generation compared to DeepSeek-V2, demonstrated lower robustness over repeated evaluation loop.
- Abstract(参考訳): 大規模言語モデル(LLM)のプログラミング能力を評価することは、ソフトウェア工学における効果的な利用にとって不可欠である。
しかし、現在の評価は、静的なベンチマークで生成されたコードの精度を主に測定し、プログラミングタスクにおけるモデルロバストネスの重要な側面を無視している。
敵攻撃はモデルの堅牢性に関する洞察を与えるが、その効果は限定的であり、評価は制約される可能性がある。
強靭性評価のための現在の対向攻撃手法は、異なるLLMに対して統一的な評価を提供することに苦慮している、一貫性のない結果をもたらす。
EVALOOPは、自己整合性の観点からロバスト性を評価する新しいアセスメントフレームワークであり、例えば、コード生成やコード要約など、一般的なソフトウェアエンジニアリングタスクに固有の自然な双対性を活用する。
EVALOOPは自己完結したフィードバックループを開始する: LLMは入力(例えば、自然言語仕様)から出力(例えば、コード)を生成し、生成した出力を入力として新しい出力(例えば、そのコードを新しい仕様に要約する)を生成する。
EVALOOPは、各ループにおけるEVALOOPの有効性を評価するプロセスを繰り返します。
この循環戦略は、外部の攻撃装置に頼らずに本質的にロバスト性を評価し、プログラミングにおけるLLMのロバスト性を評価する統一的な指標を提供する。
我々はEVALOOP上で16個の著名なLCM(例: GPT-4.1, O4-mini)を評価し、EVALOOPは通常10ループで5.01%-19.31%のパス@1性能低下を誘導することを示した。
例えば、GPT-3.5-Turboは、DeepSeek-V2よりも優れた初期コード生成にもかかわらず、繰り返し評価ループよりもロバスト性が低いことを示した。
関連論文リスト
- Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。