論文の概要: TREAT: A Code LLMs Trustworthiness / Reliability Evaluation and Testing Framework
- arxiv url: http://arxiv.org/abs/2510.17163v1
- Date: Mon, 20 Oct 2025 05:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.311692
- Title: TREAT: A Code LLMs Trustworthiness / Reliability Evaluation and Testing Framework
- Title(参考訳): TREAT: LLMsの信頼性/信頼性評価とテストフレームワーク
- Authors: Shuzheng Gao, Eric John Li, Man Ho Lam, Jingyu Xiao, Yuxuan Wan, Chaozheng Wang, Ng Man Tik, Michael R. Lyu,
- Abstract要約: 本稿では,コードインテリジェンスタスクにおけるモデル性能の総合評価を行う評価フレームワークを提案する。
評価フレームワークは、既存のアプローチにおける重要な制限に対処し、主な改善点を4つ挙げた。
この評価枠組みに基づき,26の最先端モデルを評価し,その強度と限界を明らかにする。
- 参考スコア(独自算出の注目度): 37.14734285161928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models are fundamentally transforming the software engineering landscape, demonstrating exceptional capabilities across diverse tasks such as code generation, debugging, and testing. Despite this rapid progress, a significant gap remains in how to comprehensively evaluate these models' trustworthiness in real-world software engineering scenarios. Existing benchmarks suffer from limited task scope and fail to incorporate critical evaluation aspects such as the robustness and reliability of models. To bridge this gap, we present an evaluation framework called TREAT (Code LLMs Trustworthiness / Reliability Evaluation And Testing) that provides a holistic assessment of model performance in code intelligence tasks. Our evaluation framework addresses key limitations in existing approaches with four main improvements: (1) Multi-Task Holistic Evaluation that spans diverse software engineering activities rather than limited coding tasks; (2) Multi-Language and Multi-Modality Assessment that extends beyond traditional single-language, text-only benchmarks to include multi-modality coding tasks; (3) Robustness Assessment that evaluates model reliability under semantically-preserving code transformations; and (4) Rigorous Evaluation Methodology that enhances the trustworthiness of evaluation results through diverse evaluation prompts and adaptive solution extraction. Based on this evaluation framework, we assess 26 state-of-the-art models and uncover both their strengths and limitations, yielding several key insights:(1) Current models show substantial performance variation across programming tasks; (2) Multi-modal language models demonstrate specific performance limitations in UI code generation and edit;
- Abstract(参考訳): 大規模な基盤モデルは、ソフトウェアエンジニアリングのランドスケープを根本的に変え、コード生成、デバッグ、テストといった様々なタスクにまたがる例外的な能力を実証しています。
この急速な進歩にもかかわらず、実際のソフトウェアエンジニアリングシナリオにおけるこれらのモデルの信頼性を包括的に評価する方法には、大きなギャップが残っている。
既存のベンチマークはタスクの範囲が限られており、モデルの堅牢性や信頼性といった重要な評価要素を組み込むことができない。
このギャップを埋めるために、コードインテリジェンスタスクにおけるモデルパフォーマンスの総合評価を提供する、TREAT (Code LLMs Trustworthiness / Reliability Evaluation And Testing) と呼ばれる評価フレームワークを提案する。
評価フレームワークは,(1)限定的なコーディングタスクではなく,多様なソフトウェアエンジニアリング活動にまたがるマルチタスク全体評価,(2)従来の単一言語,テキストのみのベンチマークを超えて,多モーダルなコーディングタスクを含むようなマルチタスク全体評価,(3)意味的に保存されたコード変換によるモデルの信頼性を評価するロバストネス評価,(4)多様な評価プロンプトと適応的なソリューション抽出による評価結果の信頼性を高める厳密な評価方法論,の4つの点で,既存のアプローチにおける重要な限界に対処する。
この評価フレームワークに基づいて、26の最先端モデルを評価し、その長所と短所の両方を解明し、いくつかの重要な洞察を得た。(1) 現在のモデルは、プログラミングタスク間での実質的なパフォーマンス変化を示し、(2)マルチモーダル言語モデルは、UIコードの生成と編集において、特定のパフォーマンスの限界を示す。
関連論文リスト
- RefactorCoderQA: Benchmarking LLMs for Multi-Domain Coding Question Solutions in Cloud and Edge Deployment [20.416910591388618]
本稿では,Large Language Models (LLM) の性能を評価するためのベンチマークであるRefactorCoderQAを紹介する。
我々の微調整モデルであるRefactorCoder-MoEは最先端のパフォーマンスを実現し、オープンソースと商用のベースラインを76.84%で上回りました。
論文 参考訳(メタデータ) (2025-09-12T17:44:22Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。
CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文 参考訳(メタデータ) (2025-04-29T11:57:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。