Fugu-MT 論文翻訳(概要): AVX / NEON Intrinsic Functions: When Should They Be Used?

論文の概要: AVX / NEON Intrinsic Functions: When Should They Be Used?

arxiv url: http://arxiv.org/abs/2601.04922v1
Date: Thu, 08 Jan 2026 13:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.216328
Title: AVX / NEON Intrinsic Functions: When Should They Be Used?
Title（参考訳）: AVX/NEON固有の関数:いつ使うべきか?
Authors: Théo Boivin, Joeffrey Legaux,
Abstract要約: AVX/NEON固有の関数の容量と制限を検討するためにクロスコンフィグレーションベンチマークが提案されている。主な目的は、OS、アーキテクチャ、および/または利用可能なコンパイラによって、開発者が固有の関数を使うときの選択を誘導することである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A cross-configuration benchmark is proposed to explore the capacities and limitations of AVX / NEON intrinsic functions in a generic context of development project, when a vectorisation strategy is required to optimise the code. The main aim is to guide developers to choose when using intrinsic functions, depending on the OS, architecture and/or available compiler. Intrinsic functions were observed highly efficient in conditional branching, with intrinsic version execution time reaching around 5% of plain code execution time. However, intrinsic functions were observed as unnecessary in many cases, as the compilers already well auto-vectorise the code.
Abstract（参考訳）: コード最適化にベクトル化戦略を必要とする場合, 開発プロジェクトの一般的なコンテキストにおいて, AVX/NEON固有の関数の容量と制限を検討するために, クロスコンフィグレーションベンチマークが提案される。主な目的は、OS、アーキテクチャ、および/または利用可能なコンパイラによって、開発者が固有の関数を使うときの選択を誘導することである。固有関数は条件分岐において高い効率で観察され、固有バージョン実行時間は通常のコード実行時間の約5%に達する。しかし、コンパイラがすでにコードをオートベクター化しているため、多くのケースでは本質的な関数は不要であった。

関連論文リスト

Understanding Accelerator Compilers via Performance Profiling [1.1841612917872066]
アクセラレータ設計言語(ADL)は、ハードウェアユニットにコンパイルされるハイレベル言語である。 Petalは、コンパイラの判断がパフォーマンスにどのように影響するかを理解するための、サイクルレベルのツールです。その結果,Petalのサイクルレベルのプロファイルは,既存の設計における性能問題を特定することができることがわかった。
論文参考訳（メタデータ） (2025-11-24T22:40:11Z)
VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector [8.59222474360646]
アーキテクチャ間でのRISC-Vベクトル(RVV)固有の関数の変換は、現在主流のアプローチである。現在、RVV拡張の固有のマイグレーション機能を包括的に評価するベンチマークはない。 RVV拡張を包含する最初の固有ベンチマークであるVecIntrinBenchを提案する。
論文参考訳（メタデータ） (2025-11-24T08:11:10Z)
Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels [37.00431889602245]
本稿では,スケーラブルで高性能なマイクロカーネルを自動生成するコンパイル方式を提案する。本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。
論文参考訳（メタデータ） (2025-11-14T14:32:28Z)
IntrinTrans: LLM-based Intrinsic Code Translator for RISC-V Vector [9.678932711610244]
既存のベクトル化された内在的コードをRVV内在的に変換することは、実用的で効果的なアプローチである。現在のクロスアーキテクチャの翻訳は手書きの書き換えに大きく依存している。 IntrinTransは、コンパイルとテストのフィードバックを利用して、アーキテクチャ間で固有のコードを自動的に翻訳するマルチエージェントアプローチである。
論文参考訳（メタデータ） (2025-10-11T08:52:01Z)
A Walsh Hadamard Derived Linear Vector Symbolic Architecture [83.27945465029167]
シンボリックベクトルアーキテクチャ(VSAs)は、ニューロシンボリックAIを開発するためのアプローチである。 HLBは計算効率が良く、従来のVSAタスクで有効であるように設計されている。
論文参考訳（メタデータ） (2024-10-30T03:42:59Z)
Breaking Bad: How Compilers Break Constant-Time Implementations [8.771587132463535]
本稿では,ディフェンシブプログラミング手法によって導入されたプロテクションを,コンパイラがどのように壊すかを検討する。我々は,現在最先端の暗号ライブラリにそのようなコンパイラによって引き起こされる問題が現れるかどうかを,大規模な実験で検証する。本研究は,最も高い評価を受けている暗号ライブラリのいくつかにおいて,コンパイラが引き起こす秘密の操作がいくつか発生していることを明らかにする。
論文参考訳（メタデータ） (2024-10-17T12:34:02Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。 QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文参考訳（メタデータ） (2022-10-07T16:35:16Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Towards High Performance, Portability, and Productivity: Lightweight Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文参考訳（メタデータ） (2020-03-17T02:19:54Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。