論文の概要: Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees
- arxiv url: http://arxiv.org/abs/2506.14606v1
- Date: Tue, 17 Jun 2025 15:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.537316
- Title: Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees
- Title(参考訳): Guaranteed Guess: テスト保証を備えたCISC-to-RISCトランスパイラのための言語モデリングアプローチ
- Authors: Ahmed Heakl, Sarim Hashmi, Chaimaa Abi, Celine Lee, Abdulrahman Mahmoud,
- Abstract要約: GG(Guaranteed Guess)は、事前学習された大規模言語モデルの翻訳能力と、確立されたソフトウェアテスト構造の厳密さを組み合わせた、ISA中心のトランスパイレーションパイプラインである。
提案手法は,あるISAから別のISAへのLSMを用いた候補翻訳を生成し,ソフトウェアテストフレームワークにそのような翻訳を組み込んで,翻訳の量的信頼性を構築する。
我々は、2つの多様なデータセットに対するGGアプローチを評価し、ユニットテストに高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムで99%、BringupBenchプログラムで49%の関数的/意味的正当性を達成した。
- 参考スコア(独自算出の注目度): 0.03994567502796063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The hardware ecosystem is rapidly evolving, with increasing interest in translating low-level programs across different instruction set architectures (ISAs) in a quick, flexible, and correct way to enhance the portability and longevity of existing code. A particularly challenging class of this transpilation problem is translating between complex- (CISC) and reduced- (RISC) hardware architectures, due to fundamental differences in instruction complexity, memory models, and execution paradigms. In this work, we introduce GG (Guaranteed Guess), an ISA-centric transpilation pipeline that combines the translation power of pre-trained large language models (LLMs) with the rigor of established software testing constructs. Our method generates candidate translations using an LLM from one ISA to another, and embeds such translations within a software-testing framework to build quantifiable confidence in the translation. We evaluate our GG approach over two diverse datasets, enforce high code coverage (>98%) across unit tests, and achieve functional/semantic correctness of 99% on HumanEval programs and 49% on BringupBench programs, respectively. Further, we compare our approach to the state-of-the-art Rosetta 2 framework on Apple Silicon, showcasing 1.73x faster runtime performance, 1.47x better energy efficiency, and 2.41x better memory usage for our transpiled code, demonstrating the effectiveness of GG for real-world CISC-to-RISC translation tasks. We will open-source our codes, data, models, and benchmarks to establish a common foundation for ISA-level code translation research.
- Abstract(参考訳): ハードウェアエコシステムは急速に進化し、様々な命令セットアーキテクチャ(ISA)にまたがる低レベルのプログラムを高速で柔軟で正しい方法で翻訳し、既存のコードの移植性と長寿を高めることへの関心が高まっている。
このトランスパイレーション問題の特に難しいクラスは、命令複雑性、メモリモデル、実行パラダイムに根本的な違いがあるため、複雑なCISC(CISC)と還元型RISC(RISC)のハードウェアアーキテクチャ間の変換である。
本稿では,GG(Guaranteed Guess)について紹介する。GG(Guaranteed Guess)は,事前学習された大規模言語モデル(LLM)の翻訳能力と,既存のソフトウェアテスト構造の厳密さを組み合わせたISA中心のトランスパイレーションパイプラインである。
提案手法は,あるISAから別のISAへのLSMを用いた候補翻訳を生成し,ソフトウェアテストフレームワークにそのような翻訳を組み込んで,翻訳の量的信頼性を構築する。
我々は2つの多様なデータセットに対するGGアプローチを評価し、単体テストで高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムで99%、BringupBenchプログラムで49%の関数的/意味的正当性を達成した。
さらに、Apple Siliconの最先端のRosetta 2フレームワークと比較して、実行時のパフォーマンスが1.73倍、エネルギー効率が1.47倍、トランスパイルされたコードに対するメモリ使用量が2.41倍向上し、現実のCISC-to-RISC翻訳タスクにおけるGGの有効性が実証された。
我々は、ISAレベルのコード翻訳研究の共通基盤を確立するために、コード、データ、モデル、ベンチマークをオープンソース化します。
関連論文リスト
- Mutual-Supervised Learning for Sequential-to-Parallel Code Translation [22.60670880322864]
逐次並列コード変換のためのMultual-Supervised Learning (MSL) フレームワークを提案する。
MSLはTranslatorとTesterの2つのモデルで構成されている。
また, MuSL はベースモデルの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-06-11T13:50:29Z) - LangProBe: a Language Programs Benchmark [53.81811700561928]
本稿では,言語プログラムのアーキテクチャと最適化戦略を評価するための,最初の大規模ベンチマークであるLangProBeを紹介する。
最適化された言語プログラムは、モデルへの生の呼び出しよりも高いコスト品質の改善を提供するが、最高のパフォーマンスには人間の判断が依然として必要であることを示す。
論文 参考訳(メタデータ) (2025-02-27T17:41:49Z) - Edit Once, Update Everywhere: A Simple Framework for Cross-Lingual Knowledge Synchronization in LLMs [60.12222055772508]
我々は、シンプルで実用的なSOTAレシピであるクロス言語知識民主主義編集(X-KDE)を提案する。
X-KDEは、支配的な言語から他の言語への知識の伝達を効果的に行うように設計されている。
Bi-ZsRE と MzsRE のベンチマーク実験により、X-KDE は言語間性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-20T15:32:31Z) - EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。
19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - InterTrans: Leveraging Transitive Intermediate Translations to Enhance LLM-based Code Translation [9.655135415596414]
コード翻訳は、あるプログラムをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。
近年の研究では、大規模言語モデル(LLM)のような高度な技術でさえもタスクに苦戦していることが示されている。
LLMベースの自動コード翻訳手法であるInterTransを導入する。
論文 参考訳(メタデータ) (2024-11-01T22:31:32Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。