論文の概要: Employing Continuous Integration inspired workflows for benchmarking of scientific software -- a use case on numerical cut cell quadrature
- arxiv url: http://arxiv.org/abs/2503.17192v2
- Date: Thu, 17 Apr 2025 07:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 20:12:06.274313
- Title: Employing Continuous Integration inspired workflows for benchmarking of scientific software -- a use case on numerical cut cell quadrature
- Title(参考訳): 継続的インテグレーションを取り入れた科学ソフトウェアベンチマークワークフロー - 数値的なカットセルのクオーチュアのユースケース
- Authors: Teoman Toprak, Michael Loibl, Guilherme Teixeira, Irina Shiskina, Chen Miao, Josef Kiendl, Benjamin Marussig, Florian Kummer,
- Abstract要約: 本稿では、確立された継続的インテグレーションツールとプラクティスを利用して、ベンチマークの実行とレポートの自動化を実現する、実証済みのアプローチを提案する。
我々のユースケースは、任意の領域上の数値積分(四分法)であり、2Dまたは3Dで暗黙的にあるいはパラメトリックに定義された曲線や曲面によって境界づけられる。
- 参考スコア(独自算出の注目度): 0.3387808070669509
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientific software often offers numerous (open or closed-source) alternatives for a given problem. A user needs to make an informed choice by selecting the best option based on specific metrics. However, setting up benchmarks ad-hoc can become overwhelming as the parameter space expands rapidly. Very often, the design of the benchmark is also not fully set at the start of some project. For instance, adding new libraries, adapting metrics, or introducing new benchmark cases during the project can significantly increase complexity and necessitate laborious re-evaluation of previous results. This paper presents a proven approach that utilizes established Continuous Integration tools and practices to achieve high automation of benchmark execution and reporting. Our use case is the numerical integration (quadrature) on arbitrary domains, which are bounded by implicitly or parametrically defined curves or surfaces in 2D or 3D.
- Abstract(参考訳): 科学ソフトウェアは、与えられた問題に対して多くの(オープンソースまたはクローズドソースの)代替手段を提供することが多い。
ユーザは、特定のメトリクスに基づいて最適な選択肢を選択することで、インフォームドオプションを選択する必要がある。
しかし、パラメータ空間が急速に拡大するにつれて、ベンチマークのセットアップがアドホックになりがちである。
しばしば、ベンチマークの設計もプロジェクトの開始時に完全には設定されない。
例えば、新しいライブラリの追加、メトリクスの適応、プロジェクト中の新しいベンチマークケースの導入は、複雑さを大幅に増加させ、以前の結果の再評価を必要とします。
本稿では、確立された継続的インテグレーションツールとプラクティスを利用して、ベンチマークの実行とレポートの自動化を実現する、実証済みのアプローチを提案する。
我々のユースケースは、任意の領域上の数値積分(四分法)であり、2Dまたは3Dで暗黙的にあるいはパラメトリックに定義された曲線や曲面によって境界づけられる。
関連論文リスト
- Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents [31.651748374218446]
大規模言語モデル(LLM)は、最近、複雑な多段階タスクにおいて顕著な成果を上げている。
彼らはしばしば、複数のソリューションを試して一貫したパフォーマンスを維持するのに苦労する。
論文 参考訳(メタデータ) (2025-05-19T18:50:15Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - ComplexityMeasures.jl: scalable software to unify and accelerate entropy and complexity timeseries analysis [0.0]
ComplexityMeasures.jlは簡単に拡張可能で高性能なオープンソースソフトウェアであり、様々な複雑さ対策を実装している。
このソフトウェアは1638の測度と3,841行のソースコードを提供する。
論文 参考訳(メタデータ) (2024-06-07T15:22:45Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - High-dimensional mixed-categorical Gaussian processes with application
to multidisciplinary design optimization for a green aircraft [0.6749750044497732]
本稿では, 部分最小二乗回帰に依存する革新的次元減少アルゴリズムを提案する。
我々のゴールは、混合カテゴリー入力を扱うために古典的な次元還元技法を一般化することである。
提案手法の利点は, 構造的・多分野的な応用の両面において実証される。
論文 参考訳(メタデータ) (2023-11-10T15:48:51Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Efficiently Controlling Multiple Risks with Pareto Testing [34.83506056862348]
本稿では,多目的最適化と複数仮説テストを組み合わせた2段階プロセスを提案する。
自然言語処理(NLP)アプリケーションにおいて,大規模トランスフォーマーモデルの実行を確実に高速化する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-10-14T15:54:39Z) - PDEBENCH: An Extensive Benchmark for Scientific Machine Learning [20.036987098901644]
部分微分方程式(PDE)に基づく時間依存シミュレーションタスクのベンチマークスイートであるPDEBenchを紹介する。
PDEBenchは、コードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。
論文 参考訳(メタデータ) (2022-10-13T17:03:36Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Theseus: A Library for Differentiable Nonlinear Optimization [21.993680737841476]
Theseusは、PyTorch上に構築された微分可能な非線形最小二乗(DNLS)最適化のための効率的なアプリケーション依存ライブラリである。
Theseusは、ロボット工学とビジョンにおけるエンドツーエンドの構造化学習のための共通のフレームワークを提供する。
論文 参考訳(メタデータ) (2022-07-19T17:57:40Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Geometric Optimisation on Manifolds with Applications to Deep Learning [6.85316573653194]
これらの強力なツールをすべて使用して、非専門家を支援するために、Pythonライブラリを設計、実装しています。
このライブラリに実装されたアルゴリズムは、ユーザビリティとGPU効率を念頭に設計されている。
論文 参考訳(メタデータ) (2022-03-09T15:20:07Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Adaptive Local Bayesian Optimization Over Multiple Discrete Variables [9.860437640748113]
本稿では,チームKAIST OSIのアプローチをステップワイズで記述し,ベースラインアルゴリズムを最大20.39%向上させる。
同様の方法では,ベイジアンとマルチアームドバンディット(mab)の手法を組み合わせ,変数型を考慮した値選択を行う。
経験的評価により,提案手法は既存の手法を異なるタスクにまたがる性能を示す。
論文 参考訳(メタデータ) (2020-12-07T07:51:23Z) - Information-Theoretic Multi-Objective Bayesian Optimization with
Continuous Approximations [44.25245545568633]
この問題を解決するために,情報理論を用いた連続近似を用いた多目的ベイズ最適化(iMOCA)を提案する。
種々の総合的および実世界のベンチマーク実験により、iMOCAは既存の単一忠実度法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-09-12T01:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。