論文の概要: A Magnified View into Heterogeneous-ISA Thread Migration Performance without State Transformation
- arxiv url: http://arxiv.org/abs/2512.24530v1
- Date: Wed, 31 Dec 2025 00:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.517974
- Title: A Magnified View into Heterogeneous-ISA Thread Migration Performance without State Transformation
- Title(参考訳): 状態変換を伴わない異種ISAスレッドマイグレーション性能の一考察
- Authors: Nikolaos Mavrogeorgis, Christos Vasiladiotis, Pei Mu, Amir Khordadi, Björn Franke, Antonio Barbalace,
- Abstract要約: Unificoは新しいマルチISAコンパイラで、どちらのアーキテクチャ上でも同じスタックレイアウトを維持するバイナリを生成する。
Unificoはランタイムスタック変換の必要性を回避し、ISAマイグレーションに伴うオーバーヘッドを取り除く。
我々は、Unificoを計算集約型NASベンチマークで評価し、全体の実行時間に最小限の影響を示す。
- 参考スコア(独自算出の注目度): 0.6174975342882113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heterogeneous-ISA processor designs have attracted considerable research interest. However, unlike their homogeneous-ISA counterparts, explicit software support for bridging ISA heterogeneity is required. The lack of a compilation toolchain ready to support heterogeneous-ISA targets has been a major factor hindering research in this exciting emerging area. For any such compiler, "getting right" the mechanics involved in state transformation upon migration and doing this efficiently is of critical importance. In particular, any runtime conversion of the current program stack from one architecture to another would be prohibitively expensive. In this paper, we design and develop Unifico, a new multi-ISA compiler that generates binaries that maintain the same stack layout during their execution on either architecture. Unifico avoids the need for runtime stack transformation, thus eliminating overheads associated with ISA migration. Additional responsibilities of the Unifico compiler backend include maintenance of a uniform ABI and virtual address space across ISAs. Unifico is implemented using the LLVM compiler infrastructure, and we are currently targeting the x86-64 and ARMv8 ISAs. We have evaluated Unifico across a range of compute-intensive NAS benchmarks and show its minimal impact on overall execution time, where less than 6% (10%) overhead is introduced on average for high-end (low-end) processors. We also analyze the performance impact of Unifico's key design features and demonstrate that they can be further optimized to mitigate this impact. When compared against the state-of-the-art Popcorn compiler, Unifico reduces binary size overhead from ~200% to ~10%, whilst eliminating the stack transformation overhead during ISA migration.
- Abstract(参考訳): 不均一ISAプロセッサの設計は、かなりの研究関心を集めている。
しかし、同種ISAとは違い、ISAの不均一性をブリッジするための明示的なソフトウェアサポートが必要である。
異種ISAターゲットをサポートするためのコンパイルツールチェーンの欠如は、このエキサイティングな新興分野の研究を妨げる大きな要因である。
このようなコンパイラにとって、移行に伴う状態変換と効率的な実行に関わるメカニズムを“正しく確立”することは、非常に重要なことです。
特に、現在のプログラムスタックをあるアーキテクチャから別のアーキテクチャに変換することは、違法にコストがかかる。
本稿では,UnificoというマルチISAコンパイラを設計・開発し,それぞれのアーキテクチャ上で同じスタックレイアウトを維持するバイナリを生成する。
Unificoはランタイムスタック変換の必要性を回避し、ISAマイグレーションに伴うオーバーヘッドを取り除く。
Unificoコンパイラバックエンドの責務には、統一されたABIとISA間の仮想アドレス空間のメンテナンスが含まれる。
UnificoはLLVMコンパイラインフラストラクチャを使って実装されており、現在x86-64とARMv8 ISAをターゲットにしています。
我々は、Unificoを計算集約型NASベンチマークの範囲で評価し、ハイエンド(ローエンド)プロセッサのオーバーヘッドが平均6%未満(10%)である全体の実行時間に最小限の影響を示す。
また、Unificoの主要な設計機能のパフォーマンスへの影響を分析し、この影響を軽減するためにさらに最適化できることを示します。
最先端のPopcornコンパイラと比較すると、Unificoはバイナリサイズのオーバーヘッドを ~200% から ~10% に削減し、ISA移行時にスタック変換のオーバーヘッドをなくす。
関連論文リスト
- Qubit Mapping and Routing tailored to Advanced Quantum ISAs: Not as Costly as You Think [25.907303649640735]
Canopusは、様々な量子ISAに適用可能な統一量子ビットマッピング/ルーティングフレームワークである。
Canopusは、最先端の方法と比較して、ルーティングオーバーヘッドを15%から35%削減する。
論文 参考訳(メタデータ) (2025-11-06T17:58:53Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees [0.03994567502796063]
GG(Guaranteed Guess)は、事前学習された大規模言語モデルの翻訳能力と、確立されたソフトウェアテスト構造の厳密さを組み合わせた、ISA中心のトランスパイレーションパイプラインである。
提案手法は,あるISAから別のISAへのLSMを用いた候補翻訳を生成し,ソフトウェアテストフレームワークにそのような翻訳を組み込んで,翻訳の量的信頼性を構築する。
我々は、2つの多様なデータセットに対するGGアプローチを評価し、ユニットテストに高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムで99%、BringupBenchプログラムで49%の関数的/意味的正当性を達成した。
論文 参考訳(メタデータ) (2025-06-17T15:06:54Z) - On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。
本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T12:54:04Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Improving Out-of-Distribution Robustness via Selective Augmentation [61.147630193060856]
機械学習アルゴリズムは、トレーニングとテスト例が同じ分布から引き出されると仮定する。
分散シフトは現実世界のアプリケーションでは一般的な問題であり、テスト時にモデルが劇的に悪化する可能性がある。
LISAと呼ばれる選択的な拡張によって不変関数を学習するミックスアップ方式を提案する。
論文 参考訳(メタデータ) (2022-01-02T05:58:33Z) - Towards Accurate and Compact Architectures via Neural Architecture
Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。
我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。
NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文 参考訳(メタデータ) (2021-02-20T09:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。