論文の概要: Better STEP, a format and dataset for boundary representation
- arxiv url: http://arxiv.org/abs/2506.05417v1
- Date: Wed, 04 Jun 2025 22:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.144303
- Title: Better STEP, a format and dataset for boundary representation
- Title(参考訳): 境界表現のためのフォーマットとデータセットであるより良いSTEP
- Authors: Nafiseh Izadyar, Sai Chandra Madduri, Teseo Schneider,
- Abstract要約: コンピュータ支援設計(CAD)から生成された境界表現(B-rep)は、産業で広く使われており、いくつかの大きなデータセットが利用可能である。
これらのデータセットのデータはSTEP形式で表現され、CADカーネルがそれを読み取り処理する必要がある。
本稿では,オープンなクロスプラットフォームフォーマットであるHDF5と,STEPファイルに対応するデータセットをオープンソースライブラリと組み合わせてクエリと処理する代替フォーマットを提案する。
- 参考スコア(独自算出の注目度): 6.013943959400016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Boundary representation (B-rep) generated from computer-aided design (CAD) is widely used in industry, with several large datasets available. However, the data in these datasets is represented in STEP format, requiring a CAD kernel to read and process it. This dramatically limits their scope and usage in large learning pipelines, as it constrains the possibility of deploying them on computing clusters due to the high cost of per-node licenses. This paper introduces an alternative format based on the open, cross-platform format HDF5 and a corresponding dataset for STEP files, paired with an open-source library to query and process them. Our Python package also provides standard functionalities such as sampling, normals, and curvature to ease integration in existing pipelines. To demonstrate the effectiveness of our format, we converted the Fusion 360 dataset and the ABC dataset. We developed four standard use cases (normal estimation, denoising, surface reconstruction, and segmentation) to assess the integrity of the data and its compliance with the original STEP files.
- Abstract(参考訳): コンピュータ支援設計(CAD)から生成された境界表現(B-rep)は、産業で広く使われており、いくつかの大きなデータセットが利用可能である。
しかし、これらのデータセットのデータはSTEP形式で表現され、CADカーネルがそれを読み取り処理する必要がある。
これは、ノード単位のライセンスのコストが高いため、コンピューティングクラスタにデプロイする可能性を制限するため、大規模な学習パイプラインでのスコープと使用を劇的に制限する。
本稿では,オープンなクロスプラットフォームフォーマットであるHDF5と,STEPファイルに対応するデータセットをオープンソースライブラリと組み合わせてクエリと処理する代替フォーマットを提案する。
私たちのPythonパッケージは、既存のパイプラインとの統合を簡単にするためにサンプリング、正規化、曲率といった標準的な機能も提供しています。
このフォーマットの有効性を示すため,Fusion 360データセットとABCデータセットを変換した。
我々は,データの整合性と元のSTEPファイルとの整合性を評価するために,標準的な4つのユースケース (正規推定, 復調, 表面再構成, セグメンテーション) を開発した。
関連論文リスト
- Text embedding models can be great data engineers [0.0]
テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。
ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:12:19Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset [1.3757956340051605]
Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。
これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
論文 参考訳(メタデータ) (2024-10-11T16:13:01Z) - CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl [0.07499722271664144]
Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。
本稿では,CC内のGPXファイルから注釈付きユーザ生成トラックを抽出する効率的なパイプラインを提案する。
得られたマルチモーダルデータセットには、人間による記述の1,416ペアと、最新のCCリリース6つのMultiLineStringベクターデータが含まれている。
論文 参考訳(メタデータ) (2024-05-17T18:31:26Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。