論文の概要: LLM Translation of Compiler Intermediate Representation
- arxiv url: http://arxiv.org/abs/2605.08247v1
- Date: Thu, 07 May 2026 13:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.49518
- Title: LLM Translation of Compiler Intermediate Representation
- Title(参考訳): コンパイラ中間表現のLLM翻訳
- Authors: Andrea Valenzuela Ramirez, Cristian Gutierrez-Gomez, Marta Barroso, Dario Garcia-Gasulla, Sara Royuela,
- Abstract要約: 本稿では,GIMPLE を LLVM IR に変換するための変換器モデル IRIS-14B を提案する。
我々の知る限りでは、IRIS-14BはIR-to-IR翻訳のために明示的に訓練された最初のモデルである。
現在入手可能な最先端のオープンモデルを含む、広く使われているモデルの精度は、13~1000億のパラメータから44ポイントまで向上している。
- 参考スコア(独自算出の注目度): 2.614444430580024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GCC and LLVM underpin much of modern software infrastructure, relying on distinct Intermediate Representations (IRs) to drive optimizations and code generation. However, the semantic and structural differences between these IRs create significant barriers for cross-toolchain interaction, limiting the reuse of compiler frontends, backends, and optimization pipelines across programming languages and compilation ecosystems. Traditional rule-based translators have attempted to bridge this gap, but their complexity and maintenance cost have hindered practical adoption. In this context, Large Language Models (LLMs) appear to be an emerging technology that offers a data-driven alternative, capable of learning complex mappings between heterogeneous compiler IRs directly from sufficiently representative examples. To explore this approach, this paper presents IRIS-14B, a 14-billion-parameter transformer model fine-tuned to translate GIMPLE (as emitted by GCC) to LLVM IR (as emitted by LLVM). The model is trained on paired IRs extracted from C sources and evaluated on the GIMPLE-to-LLVM IR transformation applied to IRs derived from real-world C code and competitive programming problems. To the best of our knowledge, IRIS-14B is the first model trained explicitly for IR-to-IR translation. It outperforms the accuracy of widely used models, including the largest state-of-the-art open models available today, ranging from 13 to 1,000 billion parameters, by up to 44 percentage points. The proposed transformation supports the integration of LLMs as complementary components within hybrid neuro-symbolic compiler architectures, where models such as IRIS-14B act as interoperability layers enabling cross-toolchain workflows without modifying existing compiler passes, while traditional compiler infrastructure continues to perform deterministic compilation and optimization.
- Abstract(参考訳): GCCとLLVMは、最適化とコード生成を促進するために、異なる中間表現(IR)に依存して、現代のソフトウェア基盤の多くを支えている。
しかし、これらのIR間の意味的および構造的差異は、プログラミング言語やコンパイルエコシステム間のコンパイラフロントエンド、バックエンド、最適化パイプラインの再利用を制限する、クロスツールチェーンの相互作用に重大な障壁をもたらす。
従来のルールベースの翻訳者は、このギャップを埋めようと試みてきたが、その複雑さとメンテナンスコストにより、実践的な採用が妨げられている。
この文脈では、LLM(Large Language Models)は、データ駆動の代替手段を提供する新興技術であり、十分な代表例から異種コンパイラIR間の複雑なマッピングを直接学習することができる。
本稿では, GIMPLE を LLVM IR に変換するための 14 ビリオンパラメトリックトランスフォーマモデル IRIS-14B を提案する。
このモデルは、実世界のCコードと競合プログラミング問題から派生したIRに適用されたGIMPLE-to-LLVM IR変換に基づいて、Cソースから抽出したペアIRに基づいて訓練され、評価される。
我々の知る限りでは、IRIS-14BはIR-to-IR翻訳のために明示的に訓練された最初のモデルである。
現在入手可能な最先端のオープンモデルを含む、広く使われているモデルの精度は、13億から1000億のパラメータから44ポイントまで向上している。
IRIS-14Bのようなモデルは、既存のコンパイラパスを変更することなく、クロスツールチェーンワークフローを実現する相互運用性レイヤとして機能し、従来のコンパイラインフラストラクチャは決定論的コンパイルと最適化を継続する。
関連論文リスト
- PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations [0.8699280339422538]
我々は、自然言語変換を利用したカーネルのためのパフォーマンスエンジニアリングAIアシストであるPEAKを紹介する。
実装が利用可能な場合、ベンダーライブラリと競合し、(ライブラリなしで)HLSLについては、ドキュメント化されたFLOPSです。
論文 参考訳(メタデータ) (2025-12-22T04:15:24Z) - VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector [8.59222474360646]
アーキテクチャ間でのRISC-Vベクトル(RVV)固有の関数の変換は、現在主流のアプローチである。
現在、RVV拡張の固有のマイグレーション機能を包括的に評価するベンチマークはない。
RVV拡張を包含する最初の固有ベンチマークであるVecIntrinBenchを提案する。
論文 参考訳(メタデータ) (2025-11-24T08:11:10Z) - OMPILOT: Harnessing Transformer Models for Auto Parallelization to Shared Memory Computing Paradigms [13.343925256921722]
我々は、C++コードをOpenMPに変換するのに適した、ドメイン固有のエンコーダデコーダトランスであるOMPILOTを紹介する。
OMPBLEUは、OpenMP並列構造の正確性と品質を評価するために作られた新しい合成計量である。
論文 参考訳(メタデータ) (2025-11-05T21:21:15Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving [6.19179006129561]
本稿では,逐次的かつコンテキスト対応な意思決定プロセスとして最適化を定式化する,新しいコンパイルフレームワーク(Dubbed Reasoning)を提案する。
提案手法は,LLM誘導推論がコンパイラ最適化のランドスケープを変革する可能性を示す。
論文 参考訳(メタデータ) (2025-06-02T07:02:46Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。