論文の概要: Creating a Dataset for High-Performance Computing Code Translation: A
Bridge Between HPC Fortran and C++
- arxiv url: http://arxiv.org/abs/2307.07686v2
- Date: Fri, 28 Jul 2023 02:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:22:25.843547
- Title: Creating a Dataset for High-Performance Computing Code Translation: A
Bridge Between HPC Fortran and C++
- Title(参考訳): 高性能コンピューティングコード翻訳のためのデータセットの作成:HPC FortranとC++の橋渡し
- Authors: Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao
- Abstract要約: 本稿では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルをトレーニングするための新しいデータセットを提案する。
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。
我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳の分野を前進させる可能性を強調している。
- 参考スコア(独自算出の注目度): 6.203497545947066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we present a novel dataset for training machine learning
models translating between OpenMP Fortran and C++ code. To ensure reliability
and applicability, the dataset is initially refined using a meticulous code
similarity test. The effectiveness of our dataset is assessed using both
quantitative (CodeBLEU) and qualitative (human evaluation) methods. We
demonstrate how this dataset can significantly improve the translation
capabilities of large-scale language models, with improvements of
$\mathbf{\times 5.1}$ for models with no prior coding knowledge and
$\mathbf{\times 9.9}$ for models with some coding familiarity. Our work
highlights the potential of this dataset to advance the field of code
translation for high-performance computing. The dataset is available at
https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset
- Abstract(参考訳): 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。
信頼性と適用性を保証するため、データセットはまず、微妙なコード類似性テストを使用して洗練される。
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。
我々は、このデータセットが大規模言語モデルの翻訳能力を大幅に向上させる方法を示し、事前のコーディング知識のないモデルでは$\mathbf{\times 5.1}$、コーディングに精通したモデルでは$\mathbf{\times 9.9}$を改良した。
我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳分野を前進させる可能性を強調している。
データセットはhttps://github.com/bin123apple/Fortran-CPP-HPC-code-translation-datasetで公開されている。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Fortran2CPP: Automating Fortran-to-C++ Translation using LLMs via Multi-Turn Dialogue and Dual-Agent Integration [10.985254527043429]
私たちのデータセットは、コード翻訳、コンパイル、実行、ユニットテスト、エラー修正を含む、フィードバック決定をキャプチャする1.7kの対話で構成されています。
このデータセットを使用して、CodeBLEUスコアの最大3.31倍の改善と、コンパイル成功率の92%向上を実現した。
論文 参考訳(メタデータ) (2024-12-27T18:06:25Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++? [0.4915744683251149]
CPP-UT-Benchは、大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。
データセットには2,653のコードと14のオープンソースC++から引き出されたユニットテストペアが含まれている。
論文 参考訳(メタデータ) (2024-12-03T18:35:24Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。
本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。
スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文 参考訳(メタデータ) (2023-09-18T17:49:09Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。