Fugu-MT 論文翻訳(概要): ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

論文の概要: ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

arxiv url: http://arxiv.org/abs/2602.08866v1
Date: Mon, 09 Feb 2026 16:28:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.361959
Title: ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS
Title（参考訳）: ArkEval: ArkTSの自動コードレビューのベンチマークと評価
Authors: Bang Xie, Senjian Zhang, Zhiyuan Peng, Wei Chen, Chenhao Ying, Yuan Luo,
Abstract要約: HarmonyOSエコシステムは、TypeScriptの静的型付け拡張であるArkTSに大きく依存している。その重要性は増しているが、自動化されたコード修復のための堅牢なツールが欠如している。本稿では,ArkTSの自動修復ワークフロー評価とベンチマーク構築のための統合フレームワークであるArkEvalを紹介する。
参考スコア（独自算出の注目度）: 12.977178538993806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have transformed code generation, enabling unprecedented automation in software development. As mobile ecosystems evolve, HarmonyOS has emerged as a critical platform requiring robust development tools. Software development for the HarmonyOS ecosystem relies heavily on ArkTS, a statically typed extension of TypeScript. Despite its growing importance, the ecosystem lacks robust tools for automated code repair, primarily due to the absence of a high-quality benchmark for evaluation. To address this gap, we present ArkEval, a unified framework for ArkTS automated repair workflow evaluation and benchmark construction. It provides the first comprehensive benchmark specifically designed for ArkTS automated program repair. We constructed this benchmark by mining issues from a large-scale official Huawei repository containing over 400 independent ArkTS applications. Through a rigorous multi-stage filtering process, we curated 502 reproducible issues. To ensure testability, we employed a novel LLM-based test generation and voting mechanism involving Claude and other models. Furthermore, we standardized problem statements to facilitate fair evaluation. Finally, we evaluated four state-of-the-art Large Language Models (LLMs) on our benchmark using a retrieval-augmented repair workflow. Our results highlight the current capabilities and limitations of LLMs in repairing ArkTS code, paving the way for future research in this low-resource language domain.
Abstract（参考訳）: 大規模言語モデルはコード生成を変革し、ソフトウェア開発における前例のない自動化を可能にした。モバイルエコシステムが進化するにつれ、HarmonyOSは堅牢な開発ツールを必要とする重要なプラットフォームとして登場した。 HarmonyOSエコシステムのソフトウェア開発は、TypeScriptの静的型付け拡張であるArkTSに大きく依存している。重要性が増しているにもかかわらず、エコシステムには自動コード修正のための堅牢なツールがない。このギャップに対処するため、ArkTSの自動修理ワークフロー評価とベンチマーク構築のための統合フレームワークであるArkEvalを提案する。 ArkTSの自動プログラム修復用に特別に設計された最初の包括的なベンチマークを提供する。我々は、400以上の独立したArkTSアプリケーションを含む大規模なHuaweiリポジトリのマイニングによって、このベンチマークを構築した。厳密な多段階フィルタリングプロセスにより,再現性502問題をキュレートした。テスト容易性を確保するため,我々はClaudeや他のモデルを含む新しいLCMベースのテスト生成と投票機構を採用した。さらに,公平な評価を容易にするために問題文を標準化した。最後に,検索強化補修ワークフローを用いて4つの言語モデル(LLM)をベンチマークで評価した。我々の結果は、ArkTSコードの修復におけるLLMの現在の機能と限界を強調し、この低リソース言語領域における将来の研究の道を開くものである。

関連論文リスト

TimeMachine-bench: A Benchmark for Evaluating Model Capabilities in Repository-Level Migration Tasks [12.573674060643787]
TimeMachine-benchは、現実のPythonプロジェクトでソフトウェアマイグレーションを評価するために設計されたベンチマークである。私たちのベンチマークは、依存関係の更新に応じてテストが失敗し始めるGitHubリポジトリで構成されています。
論文参考訳（メタデータ） (2026-01-30T05:42:45Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文参考訳（メタデータ） (2025-11-26T13:26:11Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。 REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文参考訳（メタデータ） (2025-08-04T18:52:01Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
CodeArena: A Collective Evaluation Platform for LLM Code Generation [46.800918377886184]
CodeArenaは、LLM(Large Language Models)コード生成に適したオンライン評価フレームワークである。鍵となる革新は、総合的な評価メカニズムであり、それは、個々のモデルのスコアを、すべての参加モデルの全体的パフォーマンスに基づいて再分類するものである。 CodeArenaは、提出されたすべてのソリューションとテストケースへのオープンアクセスを保証し、コード評価ワークフローを合理化するための自動化フレンドリなAPIを提供する。
論文参考訳（メタデータ） (2025-03-03T08:31:16Z)
AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。
論文参考訳（メタデータ） (2024-04-08T11:55:09Z)
Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。 GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文参考訳（メタデータ） (2024-01-15T13:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。