Fugu-MT 論文翻訳(概要): EVALOOP: Assessing LLM Robustness in Programming from a Self-consistency Perspective

論文の概要: EVALOOP: Assessing LLM Robustness in Programming from a Self-consistency Perspective

arxiv url: http://arxiv.org/abs/2505.12185v2
Date: Sun, 01 Jun 2025 21:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.389111
Title: EVALOOP: Assessing LLM Robustness in Programming from a Self-consistency Perspective
Title（参考訳）: EVALOOP: 自己整合性の観点からプログラミングにおけるLLMロバストネスを評価する
Authors: Sen Fang, Weiyuan Ding, Bowen Xu,
Abstract要約: 大規模言語モデル(LLM)のプログラミング能力を評価することは、ソフトウェア工学における効果的な利用に不可欠である。本稿では,自己整合性の観点からロバスト性を評価する新しいアセスメントフレームワークEVALOOPを紹介する。我々は、EVALOOP上で16個の著名なLCM(例えば、GPT-4.1, O4-mini)を評価し、EVALOOPは通常10ループで5.01%-19.31%のパス@1性能低下を誘導することを示した。
参考スコア（独自算出の注目度）: 5.762345156477737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assessing the programming capabilities of Large Language Models (LLMs) is crucial for their effective use in software engineering. Current evaluations, however, predominantly measure the accuracy of generated code on static benchmarks, neglecting the critical aspect of model robustness during programming tasks. While adversarial attacks offer insights on model robustness, their effectiveness is limited and evaluation could be constrained. Current adversarial attack methods for robustness evaluation yield inconsistent results, struggling to provide a unified evaluation across different LLMs. We introduce EVALOOP, a novel assessment framework that evaluate the robustness from a self-consistency perspective, i.e., leveraging the natural duality inherent in popular software engineering tasks, e.g., code generation and code summarization. EVALOOP initiates a self-contained feedback loop: an LLM generates output (e.g., code) from an input (e.g., natural language specification), and then use the generated output as the input to produce a new output (e.g., summarizes that code into a new specification). EVALOOP repeats the process to assess the effectiveness of EVALOOP in each loop. This cyclical strategy intrinsically evaluates robustness without rely on any external attack setups, providing a unified metric to evaluate LLMs' robustness in programming. We evaluate 16 prominent LLMs (e.g., GPT-4.1, O4-mini) on EVALOOP and found that EVALOOP typically induces a 5.01%-19.31% absolute drop in pass@1 performance within ten loops. Intriguingly, robustness does not always align with initial performance (i.e., one-time query); for instance, GPT-3.5-Turbo, despite superior initial code generation compared to DeepSeek-V2, demonstrated lower robustness over repeated evaluation loop.
Abstract（参考訳）: 大規模言語モデル(LLM)のプログラミング能力を評価することは、ソフトウェア工学における効果的な利用にとって不可欠である。しかし、現在の評価は、静的なベンチマークで生成されたコードの精度を主に測定し、プログラミングタスクにおけるモデルロバストネスの重要な側面を無視している。敵攻撃はモデルの堅牢性に関する洞察を与えるが、その効果は限定的であり、評価は制約される可能性がある。強靭性評価のための現在の対向攻撃手法は、異なるLLMに対して統一的な評価を提供することに苦慮している、一貫性のない結果をもたらす。 EVALOOPは、自己整合性の観点からロバスト性を評価する新しいアセスメントフレームワークであり、例えば、コード生成やコード要約など、一般的なソフトウェアエンジニアリングタスクに固有の自然な双対性を活用する。 EVALOOPは自己完結したフィードバックループを開始する: LLMは入力(例えば、自然言語仕様)から出力(例えば、コード)を生成し、生成した出力を入力として新しい出力(例えば、そのコードを新しい仕様に要約する)を生成する。 EVALOOPは、各ループにおけるEVALOOPの有効性を評価するプロセスを繰り返します。この循環戦略は、外部の攻撃装置に頼らずに本質的にロバスト性を評価し、プログラミングにおけるLLMのロバスト性を評価する統一的な指標を提供する。我々はEVALOOP上で16個の著名なLCM(例: GPT-4.1, O4-mini)を評価し、EVALOOPは通常10ループで5.01%-19.31%のパス@1性能低下を誘導することを示した。例えば、GPT-3.5-Turboは、DeepSeek-V2よりも優れた初期コード生成にもかかわらず、繰り返し評価ループよりもロバスト性が低いことを示した。

関連論文リスト

How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文参考訳（メタデータ） (2025-07-25T12:39:03Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts [19.880087623382384]
モデル出力から入力命令への効果的な逆写像を学習する逆学習法を提案する。本手法では,1つの評価サンプルしか必要とせず,時間を要する手動プロンプトエンジニアリングを不要にする。
論文参考訳（メタデータ） (2025-04-29T18:56:12Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文参考訳（メタデータ） (2024-12-19T18:51:06Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。