Fugu-MT 論文翻訳(概要): FPRev: Revealing the Order of Floating-Point Summation by Numerical Testing

論文の概要: FPRev: Revealing the Order of Floating-Point Summation by Numerical Testing

arxiv url: http://arxiv.org/abs/2411.00442v1
Date: Fri, 01 Nov 2024 08:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.239076
Title: FPRev: Revealing the Order of Floating-Point Summation by Numerical Testing
Title（参考訳）: FPRev: 数値試験による浮動小数点法の適用
Authors: Peichen Xie, Yanjie Gao, Jilong Xue,
Abstract要約: 浮動小数点和の順序は数値和の重要な要素である。本稿では,浮動小数点和の順序を明らかにするアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 5.283916824533212
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The order of floating-point summation is a key factor in numerical reproducibility. However, this critical information is generally unspecified and unknown for most summation-based functions in numerical libraries, making it challenging to migrate them to new environments reproducibly. This paper presents novel, non-intrusive, testing-based algorithms that can reveal the order of floating-point summation by treating functions as callable black boxes. By constructing well-designed input that can cause the swamping phenomenon of floating-point addition, we can infer the order of summation from the output. We introduce FPRev, a tool that implements these algorithms, and validate its efficiency through extensive experiments with popular numerical libraries on various CPUs and GPUs (including those with Tensor Cores). FPRev reveals the varying summation orders across different libraries and devices, and outperforms other methods in terms of time complexity. The source code of FPRev is at \url{https://github.com/microsoft/RepDL/tree/main/tools/FPRev}.
Abstract（参考訳）: 浮動小数点和の順序は数値再現性の鍵となる要素である。しかし、この臨界情報は一般に数値ライブラリのほとんどの和関数では不特定であり、不明であるため、それらを再現的に新しい環境に移行することは困難である。本稿では,関数を呼び出し可能なブラックボックスとして扱うことにより,浮動小数点和の順序を明らかにする,新しい非侵襲的,テストベースアルゴリズムを提案する。浮動小数点加算の湿潤現象を引き起こすようなよく設計された入力を構築することにより、出力から和の順序を推測することができる。我々は、これらのアルゴリズムを実装するツールであるFPRevを紹介し、様々なCPUやGPU(Tensor Coresを含む)上の一般的な数値ライブラリによる広範な実験を通じて、その効率性を検証する。 FPRevは、異なるライブラリやデバイスにまたがる様々な総和順序を明らかにし、時間的複雑さの観点から他のメソッドよりも優れている。 FPRevのソースコードは \url{https://github.com/microsoft/RepDL/tree/main/tools/FPRev} にある。

関連論文リスト

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文参考訳（メタデータ） (2026-01-21T19:29:00Z)
Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control [61.155940786140455]
強化学習(RL)は,アクティブフロー制御(AFC)において有望な結果を示した。現在のAFCベンチマークは、外部計算流体力学(CFD)の解法に依存しており、完全には微分不可能であり、3Dとマルチエージェントのサポートが限られている。 AFCにおけるRLのための最初のスタンドアロンで完全に差別化可能なベンチマークスイートであるFluidGymを紹介する。
論文参考訳（メタデータ） (2026-01-21T14:13:44Z)
Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
AEQUAM: Accelerating Quantum Algorithm Validation through FPGA-Based Emulation [0.46873264197900916]
AEQUAMは、より高速でアクセスしやすい量子回路検証を可能にするツールチェーンである。 OpenQASM 2.0をRISCライクな命令に変換するコンパイラと、数値表現とシミュレート回路を選択するCythonソフトウェアモデルと、FPGAベースのハードウェアエミュレータ用のRTL記述を生成するVHDLジェネレータで構成される。
論文参考訳（メタデータ） (2025-06-01T14:17:23Z)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳（メタデータ） (2025-05-27T03:15:21Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
AI-Driven Optimization of Hardware Overlay Configurations [0.0]
本稿では,FPGAオーバレイ構成を最適化するAI駆動方式を提案する。機械学習技術を活用することで、ハードウェアコンパイル前のさまざまな構成の実現可能性と効率を予測する。
論文参考訳（メタデータ） (2025-03-08T22:34:47Z)
if-ZKP: Intel FPGA-Based Acceleration of Zero Knowledge Proofs [3.0009885036586725]
本稿では,FPGA上でのzk-SNARK証明の高速化に適した,スケーラブルなアーキテクチャを提案する。我々は、zk-SNARKシステムに費やされた時間の大半を占めるマルチスカラー乗算(MSM)に焦点を当てる。我々の実装は、参照ソフトウェアライブラリに比べて110x-150倍高速に動作します。
論文参考訳（メタデータ） (2024-12-17T02:35:32Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
FPGA-based feedback control of quantum optics experiments with the open source software package PyRPL [32.73124984242397]
PyRPLは、量子光学実験のための自動デジタルフィードバックコントローラの実装を可能にする、オープンソースのソフトウェアパッケージである。本ソフトウェアは,アナログ入力からループフィルタの応用に至るまで,様々な種類のエラー信号のディジタル生成を実装している。開発者のコミュニティは、ソフトウェア修正の迅速かつ効率的な実装とテストを提供します。
論文参考訳（メタデータ） (2023-09-29T18:53:51Z)
Cooperative Hardware-Prompt Learning for Snapshot Compressive Imaging [51.65127848056702]
本稿では,圧縮圧縮画像システムの協調最適化を目的としたFederated Hardware-Prompt Learning (FedHP) フレームワークを提案する。 FedHPは、クライアント間で一貫性のないデータ分散を調整するためのハードウェア条件のプロンプトを学習し、異なるハードウェア間のデータの一貫性の指標となる。実験により、提案したFedHPは、事前学習されたモデルを複数のハードウェア構成に調整し、0.35dBのFLフレームワークよりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2023-06-01T22:21:28Z)
The Basis of Design Tools for Quantum Computing: Arrays, Decision Diagrams, Tensor Networks, and ZX-Calculus [55.58528469973086]
量子コンピュータは、古典的コンピュータが決して起こらない重要な問題を効率的に解決することを約束する。完全に自動化された量子ソフトウェアスタックを開発する必要がある。この研究は、今日のツールの"内部"の外観を提供し、量子回路のシミュレーション、コンパイル、検証などにおいてこれらの手段がどのように利用されるかを示す。
論文参考訳（メタデータ） (2023-01-10T19:00:00Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Bayesian Optimization under Stochastic Delayed Feedback [36.16843889404038]
既存のBOメソッドは、関数評価(フィードバック)が学習者の即時または固定遅延後に利用可能であると仮定する。本稿では,遅延フィードバックを待ちながら新しい関数クエリを選択するジレンマに効率よく対処する,線形後悔保証付きアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-19T07:34:08Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。 PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文参考訳（メタデータ） (2021-12-20T13:07:39Z)
Combining processing throughput, low latency and timing accuracy in experiment control [0.0]
我々はARTIQ実験制御インフラのファームウェアを商用のXilinx Zynq-7000システムオンチップに基づく組み込みシステムに移植した。 FPGAファブリックと統合された高性能のハードワイヤCPUコアを含んでいる。
論文参考訳（メタデータ） (2021-11-30T11:11:02Z)
Efficient Non-linear Calculators [0.0]
ディジタルハードウェア上でスムーズな非線形性を生成するための新しいアルゴリズムを提案する。整数(および固定点)の実装はASICまたはFPGA上のデジタルゲートでの使用に非常に適している。
論文参考訳（メタデータ） (2021-09-26T19:52:54Z)
AsySQN: Faster Vertical Federated Learning Algorithms with Better Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文参考訳（メタデータ） (2021-09-26T07:56:10Z)
Fast Federated Learning in the Presence of Arbitrary Device Unavailability [26.368873771739715]
Federated Learning (FL)は異種デバイスをコーディネートして、ユーザのプライバシを維持しながら共有モデルを協調的にトレーニングする。ひとつの課題は、デバイスが中央サーバ以外のトレーニングプロセスから外れることだ。我々はこの問題を解決するためにIm Federated A patientaging (MIFA)を提案する。
論文参考訳（メタデータ） (2021-06-08T07:46:31Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文参考訳（メタデータ） (2020-12-01T19:03:55Z)
Learning Set Functions that are Sparse in Non-Orthogonal Fourier Bases [73.53227696624306]
フーリエスパース集合関数を学習するための新しいアルゴリズム群を提案する。 Walsh-Hadamard変換に焦点をあてた他の研究とは対照的に、我々の新しいアルゴリズムは最近導入された非直交フーリエ変換で機能する。いくつかの実世界のアプリケーションで有効性を示す。
論文参考訳（メタデータ） (2020-10-01T14:31:59Z)
Batch Value-function Approximation with Only Realizability [17.692408242465763]
バッチ強化学習(RL):探索データセットからQstar$を学習する。我々のアルゴリズムであるBVFTは、トーナメントの手順を通じて硬さ予想(探索データというより強い概念の下では)を破る。また、BVFTが他の拡張と開問題の間のモデル選択にどのように適用できるかについても論じる。
論文参考訳（メタデータ） (2020-08-11T20:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。