論文の概要: A New Benchmark for Evaluating Code Translation with Third-Party Libraries
- arxiv url: http://arxiv.org/abs/2509.12087v1
- Date: Mon, 15 Sep 2025 16:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.390855
- Title: A New Benchmark for Evaluating Code Translation with Third-Party Libraries
- Title(参考訳): サードパーティライブラリによるコード翻訳評価のための新しいベンチマーク
- Authors: Pengyu Xue, Kunwu Zheng, Zhen Yang, Yifei Pei, Linhao Wu, Jiahui Dong, Xiapu Luo, Yan Xiao, Fei Liu, Yuxuan Zhang, Xiran Lyu, Xianhang Li, Xuanyu Zhu, Chengyi Wang,
- Abstract要約: TransLibEvalはライブラリ中心のコード翻訳に特化した最初のベンチマークである。
Python、Java、C++にまたがる200の現実世界のタスクで構成されており、それぞれがデータ処理、機械学習、Web開発といったさまざまなカテゴリのTPLを明示的に含んでいる。
商業・一般・コード特化家族の近年の7つのLCMを,直接・IR誘導・検索強化の6つのカテゴリの翻訳戦略に基づいて評価した。
- 参考スコア(独自算出の注目度): 37.53966825335189
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have been widely studied in the code translation field on the method, class, and even repository levels. However, most of these benchmarks are limited in terms of Third-Party Library (TPL) categories and scales, making TPL-related errors hard to expose and hindering the development of targeted solutions. Considering the high dependence (over 90%) on TPLs in practical programming, demystifying and analyzing LLMs' code translation performance involving various TPLs becomes imperative. To address this gap, we construct TransLibEval, the first benchmark dedicated to library-centric code translation. It consists of 200 real-world tasks across Python, Java, and C++, each explicitly involving TPLs from diverse categories such as data processing, machine learning, and web development, with comprehensive dependency coverage and high-coverage test suites. We evaluate seven recent LLMs of commercial, general, and code-specialized families under six translation strategies of three categories: Direct, IR-guided, and Retrieval-augmented. Experimental results show a dramatic performance drop compared with library-free settings (average CA decline over 60%), while diverse strategies demonstrate heterogeneous advantages. Furthermore, we analyze 4,831 failed cases from GPT-4o, one of the State-of-the-Art (SOTA) LLMs, revealing numerous third-party reference errors that were obscured previously. These findings highlight the unique challenges of library-centric translation and provide practical guidance for improving TPL-aware code intelligence.
- Abstract(参考訳): 近年、LLM(Large Language Models)は、メソッド、クラス、リポジトリレベルに関するコード翻訳の分野で広く研究されている。
しかしながら、これらのベンチマークのほとんどは、サードパーティライブラリ(TPL)のカテゴリとスケールの点で制限されており、TPL関連のエラーを露呈し、ターゲットとするソリューションの開発を妨げることは困難である。
実用的なプログラミングにおけるTPLへの高い依存度(90%以上)を考えると、様々なTPLを含むLLMのコード翻訳性能のデミスタライズと解析が必須となる。
このギャップに対処するため、図書館中心のコード翻訳に特化した最初のベンチマークであるTransLibEvalを構築した。
Python、Java、C++にまたがる200の現実世界のタスクで構成され、それぞれがデータ処理、機械学習、Web開発といったさまざまなカテゴリのTPLを明示的に含み、包括的な依存性カバレッジと高いカバレッジテストスイートを備えている。
商業・一般・コード特化家族の近年の7つのLCMを,直接・IR誘導・検索強化の6つのカテゴリの翻訳戦略に基づいて評価した。
実験の結果,ライブラリフリーな設定に比べて劇的な性能低下(平均CA減少率は60%)を示し,多種多様な戦略が不均一な利点を示している。
さらに,SOTA (State-of-the-Art, State-the-Art) LLM) のひとつである GPT-4o から4,831件の故障事例を解析し,これまで不明であったサードパーティの参照エラーを多数明らかにした。
これらの知見は図書館中心の翻訳の独特な課題を強調し、TPL対応のコードインテリジェンスを改善するための実践的なガイダンスを提供する。
関連論文リスト
- ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。