論文の概要: LOOPerSet: A Large-Scale Dataset for Data-Driven Polyhedral Compiler Optimization
- arxiv url: http://arxiv.org/abs/2510.10209v1
- Date: Sat, 11 Oct 2025 13:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.844046
- Title: LOOPerSet: A Large-Scale Dataset for Data-Driven Polyhedral Compiler Optimization
- Title(参考訳): LOOPerSet: データ駆動多面体コンパイラ最適化のための大規模データセット
- Authors: Massinissa Merouani, Afif Boudaoud, Riyadh Baghdadi,
- Abstract要約: LOOPerSetは、220,000のユニークな合成多面体プログラムから得られた2800万のラベル付きデータポイントを含む新しいパブリックデータセットである。
LOOPerSetのスケールと多様性は、学習したコストモデルをトレーニングし評価するための貴重なリソースとなります。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advancement of machine learning for compiler optimization, particularly within the polyhedral model, is constrained by the scarcity of large-scale, public performance datasets. This data bottleneck forces researchers to undertake costly data generation campaigns, slowing down innovation and hindering reproducible research learned code optimization. To address this gap, we introduce LOOPerSet, a new public dataset containing 28 million labeled data points derived from 220,000 unique, synthetically generated polyhedral programs. Each data point maps a program and a complex sequence of semantics-preserving transformations (such as fusion, skewing, tiling, and parallelism)to a ground truth performance measurement (execution time). The scale and diversity of LOOPerSet make it a valuable resource for training and evaluating learned cost models, benchmarking new model architectures, and exploring the frontiers of automated polyhedral scheduling. The dataset is released under a permissive license to foster reproducible research and lower the barrier to entry for data-driven compiler optimization.
- Abstract(参考訳): コンパイラ最適化のための機械学習の進歩は、特に多面体モデルにおいて、大規模でパブリックなパフォーマンスデータセットの不足によって制限されている。
このデータボトルネックにより、研究者は高価なデータ生成キャンペーンを実施でき、イノベーションを遅くし、再現可能なコード最適化の妨げとなる。
LOOPerSetは、220,000のユニークな合成多面体プログラムから得られた2800万のラベル付きデータポイントを含む新しい公開データセットである。
各データポイントはプログラムと複雑なセマンティックス保存変換(融合、スキーイング、タイリング、並列化など)を基底真理のパフォーマンス測定(実行時間)にマッピングする。
LOOPerSetのスケールと多様性は、学習したコストモデルをトレーニングし、評価し、新しいモデルアーキテクチャをベンチマークし、自動化された多面的スケジューリングのフロンティアを探るための貴重なリソースとなります。
データセットはパーミッシブライセンスの下でリリースされ、再現可能な研究を奨励し、データ駆動コンパイラ最適化の参入障壁を低くする。
関連論文リスト
- Generating Skyline Datasets for Data Science Models [11.454081868173725]
本稿では,複数のユーザ定義モデルパフォーマンス尺度を最適化することにより,データセットを検出するフレームワークであるMODisを紹介する。
スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出する。
スカイラインデータ探索アルゴリズムの有効性と有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-02-16T20:33:59Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文 参考訳(メタデータ) (2025-02-03T22:30:06Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。