Fugu-MT 論文翻訳(概要): Creating a Dataset for High-Performance Computing Code Translation: A Bridge Between HPC Fortran and C++

論文の概要: Creating a Dataset for High-Performance Computing Code Translation: A Bridge Between HPC Fortran and C++

arxiv url: http://arxiv.org/abs/2307.07686v2
Date: Fri, 28 Jul 2023 02:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 15:22:25.843547
Title: Creating a Dataset for High-Performance Computing Code Translation: A Bridge Between HPC Fortran and C++
Title（参考訳）: 高性能コンピューティングコード翻訳のためのデータセットの作成:HPC FortranとC++の橋渡し
Authors: Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao
Abstract要約: 本稿では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルをトレーニングするための新しいデータセットを提案する。定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳の分野を前進させる可能性を強調している。
参考スコア（独自算出の注目度）: 6.203497545947066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is initially refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We demonstrate how this dataset can significantly improve the translation capabilities of large-scale language models, with improvements of $\mathbf{\times 5.1}$ for models with no prior coding knowledge and $\mathbf{\times 9.9}$ for models with some coding familiarity. Our work highlights the potential of this dataset to advance the field of code translation for high-performance computing. The dataset is available at https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset
Abstract（参考訳）: 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。信頼性と適用性を保証するため、データセットはまず、微妙なコード類似性テストを使用して洗練される。定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。我々は、このデータセットが大規模言語モデルの翻訳能力を大幅に向上させる方法を示し、事前のコーディング知識のないモデルでは$\mathbf{\times 5.1}$、コーディングに精通したモデルでは$\mathbf{\times 9.9}$を改良した。我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳分野を前進させる可能性を強調している。データセットはhttps://github.com/bin123apple/Fortran-CPP-HPC-code-translation-datasetで公開されている。

関連論文リスト

Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
LLM-Assisted Translation of Legacy FORTRAN Codes to C++: A Cross-Platform Study [38.73914653312889]
大規模言語モデル(LLM)は、科学的なコンピュータコードの生成と翻訳にますます活用されている。本稿では,エージェントワークフロー構築に向けたステップとして,ALMを用いたFortranからC++への翻訳の適用性を検討した。我々は、翻訳されたC++コードのコンパイル精度を統計的に定量化し、LLM翻訳コードの人間翻訳C++コードとの類似度を測定し、FortranからC++翻訳の出力類似度を統計的に定量化した。
論文参考訳（メタデータ） (2025-04-21T20:34:37Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
Fortran2CPP: Automating Fortran-to-C++ Translation using LLMs via Multi-Turn Dialogue and Dual-Agent Integration [10.985254527043429]
私たちのデータセットは、コード翻訳、コンパイル、実行、ユニットテスト、エラー修正を含む、フィードバック決定をキャプチャする1.7kの対話で構成されています。このデータセットを使用して、CodeBLEUスコアの最大3.31倍の改善と、コンパイル成功率の92%向上を実現した。
論文参考訳（メタデータ） (2024-12-27T18:06:25Z)
Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-06T16:22:32Z)
CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++? [0.4915744683251149]
CPP-UT-Benchは、大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。データセットには2,653のコードと14のオープンソースC++から引き出されたユニットテストペアが含まれている。
論文参考訳（メタデータ） (2024-12-03T18:35:24Z)
CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。 GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文参考訳（メタデータ） (2024-03-23T07:29:41Z)
Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文参考訳（メタデータ） (2024-02-06T18:59:30Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Leveraging Generative AI: Improving Software Metadata Classification with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文参考訳（メタデータ） (2023-10-14T12:09:43Z)
Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文参考訳（メタデータ） (2023-09-18T17:49:09Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
Advising OpenMP Parallelization via a Graph-Based Approach with Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。 OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-16T16:56:10Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
CoDesc: A Large Code-Description Parallel Dataset [4.828053113572208]
CoDescは420万のJavaメソッドと自然言語記述からなる大規模な並列データセットです。広範囲な分析により、データセットから一般的なノイズパターンを特定し、削除する。このデータセットは、コード検索を最大22%改善し、コード要約における新しい最先端を実現するのに役立ちます。
論文参考訳（メタデータ） (2021-05-29T05:40:08Z)
Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文参考訳（メタデータ） (2020-10-03T18:57:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。