Fugu-MT 論文翻訳(概要): Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations

論文の概要: Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations

arxiv url: http://arxiv.org/abs/2411.00442v3
Date: Tue, 01 Jul 2025 03:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-02 20:01:17.144446
Title: Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations
Title（参考訳）: ソフトウェア/ハードウェア実装における浮動小数点累積順序の探索
Authors: Peichen Xie, Yanjie Gao, Yang Wang, Jilong Xue,
Abstract要約: 総和や行列乗算などの累積演算は、多くの計算領域において基礎となる。数値テストにより,ソフトウェアおよびハードウェア実装の蓄積順序を明らかにするための診断ツールであるFPRevを紹介する。
参考スコア（独自算出の注目度）: 8.44425601283977
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accumulation-based operations, such as summation and matrix multiplication, are fundamental to numerous computational domains. However, their accumulation orders are often undocumented in existing software and hardware implementations, making it difficult for developers to ensure consistent results across systems. To address this issue, we introduce FPRev, a diagnostic tool designed to reveal the accumulation order in the software and hardware implementations through numerical testing. With FPRev, developers can identify and compare accumulation orders, enabling developers to create reproducible software and verify implementation equivalence. FPRev is a testing-based tool that non-intrusively reveals the accumulation order by analyzing the outputs of the tested implementation for distinct specially designed inputs. Employing FPRev, we showcase the accumulation orders of popular libraries (such as NumPy and PyTorch) on CPUs and GPUs (including GPUs with specialized matrix accelerators such as Tensor Cores). We also validate the efficiency of FPRev through extensive experiments. FPRev exhibits a lower time complexity compared to the basic solution. FPRev is open-sourced at https://github.com/peichenxie/FPRev.
Abstract（参考訳）: 総和や行列乗算などの累積演算は、多くの計算領域において基礎となる。しかしながら、それらの累積注文は、しばしば既存のソフトウェアやハードウェア実装では文書化されていないため、開発者はシステム間で一貫性のある結果を保証するのが困難である。この問題に対処するために,数値テストによるソフトウェアおよびハードウェア実装の蓄積順序を明らかにするための診断ツールであるFPRevを紹介する。 FPRevを使えば、開発者は蓄積順序を特定して比較し、再現可能なソフトウェアを作成し、実装の等価性を検証できる。 FPRevはテストベースのツールで、個別に設計された入力に対してテスト実装の出力を分析することで、非侵襲的に累積順序を明らかにする。 FPRevを利用すると、CPUやGPU(Tensor Coresのような特別なマトリックスアクセラレータを持つGPUを含む)上の人気のあるライブラリ(NumPyやPyTorchなど)の蓄積順序を示す。また,FPRevの有効性についても広範な実験により検証した。 FPRevは、基本的なソリューションに比べて、時間の複雑さが低い。 FPRevはhttps://github.com/peichenxie/FPRevでオープンソース化されている。

関連論文リスト

Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
AEQUAM: Accelerating Quantum Algorithm Validation through FPGA-Based Emulation [0.46873264197900916]
AEQUAMは、より高速でアクセスしやすい量子回路検証を可能にするツールチェーンである。 OpenQASM 2.0をRISCライクな命令に変換するコンパイラと、数値表現とシミュレート回路を選択するCythonソフトウェアモデルと、FPGAベースのハードウェアエミュレータ用のRTL記述を生成するVHDLジェネレータで構成される。
論文参考訳（メタデータ） (2025-06-01T14:17:23Z)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳（メタデータ） (2025-05-27T03:15:21Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
AI-Driven Optimization of Hardware Overlay Configurations [0.0]
本稿では,FPGAオーバレイ構成を最適化するAI駆動方式を提案する。機械学習技術を活用することで、ハードウェアコンパイル前のさまざまな構成の実現可能性と効率を予測する。
論文参考訳（メタデータ） (2025-03-08T22:34:47Z)
if-ZKP: Intel FPGA-Based Acceleration of Zero Knowledge Proofs [3.0009885036586725]
本稿では,FPGA上でのzk-SNARK証明の高速化に適した,スケーラブルなアーキテクチャを提案する。我々は、zk-SNARKシステムに費やされた時間の大半を占めるマルチスカラー乗算(MSM)に焦点を当てる。我々の実装は、参照ソフトウェアライブラリに比べて110x-150倍高速に動作します。
論文参考訳（メタデータ） (2024-12-17T02:35:32Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
FPGA-based feedback control of quantum optics experiments with the open source software package PyRPL [32.73124984242397]
PyRPLは、量子光学実験のための自動デジタルフィードバックコントローラの実装を可能にする、オープンソースのソフトウェアパッケージである。本ソフトウェアは,アナログ入力からループフィルタの応用に至るまで,様々な種類のエラー信号のディジタル生成を実装している。開発者のコミュニティは、ソフトウェア修正の迅速かつ効率的な実装とテストを提供します。
論文参考訳（メタデータ） (2023-09-29T18:53:51Z)
Cooperative Hardware-Prompt Learning for Snapshot Compressive Imaging [51.65127848056702]
本稿では,圧縮圧縮画像システムの協調最適化を目的としたFederated Hardware-Prompt Learning (FedHP) フレームワークを提案する。 FedHPは、クライアント間で一貫性のないデータ分散を調整するためのハードウェア条件のプロンプトを学習し、異なるハードウェア間のデータの一貫性の指標となる。実験により、提案したFedHPは、事前学習されたモデルを複数のハードウェア構成に調整し、0.35dBのFLフレームワークよりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2023-06-01T22:21:28Z)
The Basis of Design Tools for Quantum Computing: Arrays, Decision Diagrams, Tensor Networks, and ZX-Calculus [55.58528469973086]
量子コンピュータは、古典的コンピュータが決して起こらない重要な問題を効率的に解決することを約束する。完全に自動化された量子ソフトウェアスタックを開発する必要がある。この研究は、今日のツールの"内部"の外観を提供し、量子回路のシミュレーション、コンパイル、検証などにおいてこれらの手段がどのように利用されるかを示す。
論文参考訳（メタデータ） (2023-01-10T19:00:00Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Bayesian Optimization under Stochastic Delayed Feedback [36.16843889404038]
既存のBOメソッドは、関数評価(フィードバック)が学習者の即時または固定遅延後に利用可能であると仮定する。本稿では,遅延フィードバックを待ちながら新しい関数クエリを選択するジレンマに効率よく対処する,線形後悔保証付きアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-19T07:34:08Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。 PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文参考訳（メタデータ） (2021-12-20T13:07:39Z)
Combining processing throughput, low latency and timing accuracy in experiment control [0.0]
我々はARTIQ実験制御インフラのファームウェアを商用のXilinx Zynq-7000システムオンチップに基づく組み込みシステムに移植した。 FPGAファブリックと統合された高性能のハードワイヤCPUコアを含んでいる。
論文参考訳（メタデータ） (2021-11-30T11:11:02Z)
Efficient Non-linear Calculators [0.0]
ディジタルハードウェア上でスムーズな非線形性を生成するための新しいアルゴリズムを提案する。整数(および固定点)の実装はASICまたはFPGA上のデジタルゲートでの使用に非常に適している。
論文参考訳（メタデータ） (2021-09-26T19:52:54Z)
AsySQN: Faster Vertical Federated Learning Algorithms with Better Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文参考訳（メタデータ） (2021-09-26T07:56:10Z)
Fast Federated Learning in the Presence of Arbitrary Device Unavailability [26.368873771739715]
Federated Learning (FL)は異種デバイスをコーディネートして、ユーザのプライバシを維持しながら共有モデルを協調的にトレーニングする。ひとつの課題は、デバイスが中央サーバ以外のトレーニングプロセスから外れることだ。我々はこの問題を解決するためにIm Federated A patientaging (MIFA)を提案する。
論文参考訳（メタデータ） (2021-06-08T07:46:31Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文参考訳（メタデータ） (2020-12-01T19:03:55Z)
Learning Set Functions that are Sparse in Non-Orthogonal Fourier Bases [73.53227696624306]
フーリエスパース集合関数を学習するための新しいアルゴリズム群を提案する。 Walsh-Hadamard変換に焦点をあてた他の研究とは対照的に、我々の新しいアルゴリズムは最近導入された非直交フーリエ変換で機能する。いくつかの実世界のアプリケーションで有効性を示す。
論文参考訳（メタデータ） (2020-10-01T14:31:59Z)
Batch Value-function Approximation with Only Realizability [17.692408242465763]
バッチ強化学習(RL):探索データセットからQstar$を学習する。我々のアルゴリズムであるBVFTは、トーナメントの手順を通じて硬さ予想(探索データというより強い概念の下では)を破る。また、BVFTが他の拡張と開問題の間のモデル選択にどのように適用できるかについても論じる。
論文参考訳（メタデータ） (2020-08-11T20:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。