論文の概要: On the Evaluation of Neural Code Translation: Taxonomy and Benchmark
- arxiv url: http://arxiv.org/abs/2308.08961v1
- Date: Thu, 17 Aug 2023 13:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:50:07.235178
- Title: On the Evaluation of Neural Code Translation: Taxonomy and Benchmark
- Title(参考訳): ニューラルコード翻訳の評価について:分類学とベンチマーク
- Authors: Mingsheng Jiao, Tingrui Yu, Xuan Li, Guanjie Qiu, Xiaodong Gu, Beijun
Shen
- Abstract要約: 我々は,コードの翻訳タスクを,その複雑さと知識依存度に応じて4つの一次タイプに分類する分類法を開発した。
次に、これらの4つのカテゴリで既存のアプローチがどのように機能するかを徹底的に分析する。
以上の結果から,最先端のコード翻訳モデルでは1型,2型が優れているが,3型,4型といった知識に依存しない翻訳に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 12.431884660186281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, neural code translation has gained increasing attention.
While most of the research focuses on improving model architectures and
training processes, we notice that the evaluation process and benchmark for
code translation models are severely limited: they primarily treat source code
as natural languages and provide a holistic accuracy score while disregarding
the full spectrum of model capabilities across different translation types and
complexity. In this paper, we present a comprehensive investigation of four
state-of-the-art models and analyze in-depth the advantages and limitations of
three existing benchmarks. Based on the empirical results, we develop a
taxonomy that categorizes code translation tasks into four primary types
according to their complexity and knowledge dependence: token level (type 1),
syntactic level (type 2), library level (type 3), and algorithm level (type 4).
We then conduct a thorough analysis of how existing approaches perform across
these four categories. Our findings indicate that while state-of-the-art code
translation models excel in type-1 and type-2 translations, they struggle with
knowledge-dependent ones such as type-3 and type-4. Existing benchmarks are
biased towards trivial translations, such as keyword mapping. To overcome these
limitations, we construct G-TransEval, a new benchmark by manually curating
type-3 and type-4 translation pairs and unit test cases. Results on our new
benchmark suggest that G-TransEval can exhibit more comprehensive and
finer-grained capability of code translation models and thus provide a more
rigorous evaluation. Our studies also provide more insightful findings and
suggestions for future research, such as building type-3 and type-4 training
data and ensembling multiple pretraining approaches.
- Abstract(参考訳): 近年、神経コード翻訳が注目されている。
主にソースコードを自然言語として扱い、様々な翻訳タイプと複雑さにまたがるモデル能力のスペクトルを完全に無視しながら、総合的な正確性スコアを提供する。
本稿では,4つの最先端モデルの包括的調査を行い,既存の3つのベンチマークの利点と限界を詳細に分析する。
実験結果に基づき,その複雑性と知識依存度に応じて,コード翻訳タスクを4つの主要型に分類する分類法(トークンレベル(タイプ1),構文レベル(タイプ2),ライブラリレベル(タイプ3),アルゴリズムレベル(タイプ4))を開発した。
次に、これらの4つのカテゴリで既存のアプローチがどのように機能するかを徹底的に分析する。
以上の結果から,最先端のコード翻訳モデルでは1型,2型が優れているが,3型,4型といった知識に依存しない翻訳に苦慮していることが明らかとなった。
既存のベンチマークはキーワードマッピングのような自明な翻訳に偏っている。
これらの制約を克服するため,タイプ3とタイプ4の翻訳ペアと単体テストケースを手作業でキュレートした新しいベンチマークであるG-TransEvalを構築した。
新しいベンチマークの結果から,g-transevalはコード翻訳モデルのより包括的できめ細かな能力を示し,より厳密な評価ができることが示唆された。
また,本研究は,3型および4型トレーニングデータの構築や,複数の事前学習アプローチの実施など,今後の研究への洞察と提案も提供する。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Is it indeed bigger better? The comprehensive study of claim detection
LMs applied for disinformation tackling [1.5856555660089906]
本研究では,チェック価値のあるクレーム検出作業において,微調整モデルと極めて大きな言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Adapting Deep Learning for Sentiment Classification of Code-Switched
Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。
コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-04T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。