論文の概要: BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and
Parametric CAD Designs
- arxiv url: http://arxiv.org/abs/2402.05301v2
- Date: Fri, 9 Feb 2024 21:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:08:47.388177
- Title: BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and
Parametric CAD Designs
- Title(参考訳): BIKED++:140万の自転車画像とパラメトリックCADデザインのマルチモーダルデータセット
- Authors: Lyle Regenwetter, Yazan Abu Obaideh, Amin Heyrani Nobari, Faez Ahmed
- Abstract要約: 本稿では,140万個の自転車設計の公開データセットについて紹介する。
データセットは、BikeCADソフトウェアを利用するレンダリングエンジンを使用して作成される。
- 参考スコア(独自算出の注目度): 4.470596692490074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a public dataset of 1.4 million procedurally-generated
bicycle designs represented parametrically, as JSON files, and as rasterized
images. The dataset is created through the use of a rendering engine which
harnesses the BikeCAD software to generate vector graphics from parametric
designs. This rendering engine is discussed in the paper and also released
publicly alongside the dataset. Though this dataset has numerous applications,
a principal motivation is the need to train cross-modal predictive models
between parametric and image-based design representations. For example, we
demonstrate that a predictive model can be trained to accurately estimate
Contrastive Language-Image Pretraining (CLIP) embeddings from a parametric
representation directly. This allows similarity relations to be established
between parametric bicycle designs and text strings or reference images.
Trained predictive models are also made public. The dataset joins the BIKED
dataset family which includes thousands of mixed-representation human-designed
bicycle models and several datasets quantifying design performance. The code
and dataset can be found at:
https://github.com/Lyleregenwetter/BIKED_multimodal/tree/main
- Abstract(参考訳): 本稿では,jsonファイルやラスタライズドイメージとして,パラメトリックに表現された14万個の自転車デザインの公開データセットを紹介する。
データセットは、BikeCADソフトウェアを利用したレンダリングエンジンを使用して作成され、パラメトリックデザインからベクトルグラフィックスを生成する。
このレンダリングエンジンは論文で論じられ、データセットとともに公開された。
このデータセットには多くの応用があるが、主な動機はパラメトリックとイメージベースのデザイン表現間のクロスモーダル予測モデルをトレーニングする必要があることである。
例えば、パラメトリック表現から直接CLIP(Contrastive Language- Image Pretraining)埋め込みを正確に推定するために予測モデルを訓練できることを実証する。
これにより、パラメトリック自転車の設計とテキスト文字列や参照画像との類似性が確立される。
トレーニングされた予測モデルも公開されている。
データセットは、数千の複合表現型自転車モデルと、設計性能を定量化するいくつかのデータセットを含む、自転車データセットファミリに加わる。
コードとデータセットは、https://github.com/Lyleregenwetter/BIKED_multimodal/tree/mainにある。
関連論文リスト
- Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Heterogeneous Graph Learning for Acoustic Event Classification [22.526665796655205]
オーディオヴィジュアルデータのためのグラフは手作業で作成され、これは困難で準最適である。
クロスモーダルエッジを学習する新しいモデルであるヘテロジニアスグラフクロスモーダルネットワーク(HGCN)を開発した。
提案モデルではパラメトリックな構成により,様々な空間的・時間的スケールに対応でき,学習可能なクロスモーダルエッジは関連ノードを効果的に接続することができる。
論文 参考訳(メタデータ) (2023-03-05T13:06:53Z) - HADA: A Graph-based Amalgamation Framework in Image-text Retrieval [2.3013879633693266]
本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。
Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
論文 参考訳(メタデータ) (2023-01-11T22:25:20Z) - Chart-RCNN: Efficient Line Chart Data Extraction from Camera Images [0.0]
ラインチャートデータ抽出は光学文字認識の自然な拡張である。
本稿では,テキストラベル,マーク座標,視点推定を同時に出力する合成データ生成フレームワークとワンステージモデルを提案する。
以上の結果から,合成データのみをトレーニングしたモデルは,微調整なしで実画像に適用可能であり,実世界の応用に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-25T19:55:52Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - BIKED: A Dataset and Machine Learning Benchmarks for Data-Driven Bicycle
Design [1.933681537640272]
数百人のデザイナーによる4500台の自転車モデルからなるデータセット「BIKED」を発表します。
データセットは、アセンブリイメージ、コンポーネントイメージ、数値設計パラメータ、クラスラベルを含む、さまざまな設計情報で構成されている。
論文 参考訳(メタデータ) (2021-03-10T03:12:32Z) - ACRONYM: A Large-Scale Grasp Dataset Based on Simulation [64.37675024289857]
ACRONYMは物理シミュレーションに基づくロボットグリップ計画のためのデータセットである。
データセットには17.7Mのパラレルジャウグリップが含まれ、262の異なるカテゴリから8872のオブジェクトにまたがっている。
我々は、この大規模で多様なデータセットの価値を、2つの最先端の学習に基づく把握計画アルゴリズムの訓練に利用することで示す。
論文 参考訳(メタデータ) (2020-11-18T23:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。