Fugu-MT 論文翻訳(概要): BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and Parametric CAD Designs

論文の概要: BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and Parametric CAD Designs

arxiv url: http://arxiv.org/abs/2402.05301v2
Date: Fri, 9 Feb 2024 21:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 20:08:47.388177
Title: BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and Parametric CAD Designs
Title（参考訳）: BIKED++:140万の自転車画像とパラメトリックCADデザインのマルチモーダルデータセット
Authors: Lyle Regenwetter, Yazan Abu Obaideh, Amin Heyrani Nobari, Faez Ahmed
Abstract要約: 本稿では,140万個の自転車設計の公開データセットについて紹介する。データセットは、BikeCADソフトウェアを利用するレンダリングエンジンを使用して作成される。
参考スコア（独自算出の注目度）: 4.470596692490074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a public dataset of 1.4 million procedurally-generated bicycle designs represented parametrically, as JSON files, and as rasterized images. The dataset is created through the use of a rendering engine which harnesses the BikeCAD software to generate vector graphics from parametric designs. This rendering engine is discussed in the paper and also released publicly alongside the dataset. Though this dataset has numerous applications, a principal motivation is the need to train cross-modal predictive models between parametric and image-based design representations. For example, we demonstrate that a predictive model can be trained to accurately estimate Contrastive Language-Image Pretraining (CLIP) embeddings from a parametric representation directly. This allows similarity relations to be established between parametric bicycle designs and text strings or reference images. Trained predictive models are also made public. The dataset joins the BIKED dataset family which includes thousands of mixed-representation human-designed bicycle models and several datasets quantifying design performance. The code and dataset can be found at: https://github.com/Lyleregenwetter/BIKED_multimodal/tree/main
Abstract（参考訳）: 本稿では,jsonファイルやラスタライズドイメージとして,パラメトリックに表現された14万個の自転車デザインの公開データセットを紹介する。データセットは、BikeCADソフトウェアを利用したレンダリングエンジンを使用して作成され、パラメトリックデザインからベクトルグラフィックスを生成する。このレンダリングエンジンは論文で論じられ、データセットとともに公開された。このデータセットには多くの応用があるが、主な動機はパラメトリックとイメージベースのデザイン表現間のクロスモーダル予測モデルをトレーニングする必要があることである。例えば、パラメトリック表現から直接CLIP(Contrastive Language- Image Pretraining)埋め込みを正確に推定するために予測モデルを訓練できることを実証する。これにより、パラメトリック自転車の設計とテキスト文字列や参照画像との類似性が確立される。トレーニングされた予測モデルも公開されている。データセットは、数千の複合表現型自転車モデルと、設計性能を定量化するいくつかのデータセットを含む、自転車データセットファミリに加わる。コードとデータセットは、https://github.com/Lyleregenwetter/BIKED_multimodal/tree/mainにある。

関連論文リスト

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文参考訳（メタデータ） (2024-06-13T16:40:39Z)
Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文参考訳（メタデータ） (2024-04-06T01:54:17Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
HADA: A Graph-based Amalgamation Framework in Image-text Retrieval [2.3013879633693266]
本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。 Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
論文参考訳（メタデータ） (2023-01-11T22:25:20Z)
Chart-RCNN: Efficient Line Chart Data Extraction from Camera Images [0.0]
ラインチャートデータ抽出は光学文字認識の自然な拡張である。本稿では,テキストラベル,マーク座標,視点推定を同時に出力する合成データ生成フレームワークとワンステージモデルを提案する。以上の結果から,合成データのみをトレーニングしたモデルは,微調整なしで実画像に適用可能であり,実世界の応用に有効であることが示唆された。
論文参考訳（メタデータ） (2022-11-25T19:55:52Z)
BIKED: A Dataset and Machine Learning Benchmarks for Data-Driven Bicycle Design [1.933681537640272]
数百人のデザイナーによる4500台の自転車モデルからなるデータセット「BIKED」を発表します。データセットは、アセンブリイメージ、コンポーネントイメージ、数値設計パラメータ、クラスラベルを含む、さまざまな設計情報で構成されている。
論文参考訳（メタデータ） (2021-03-10T03:12:32Z)
ACRONYM: A Large-Scale Grasp Dataset Based on Simulation [64.37675024289857]
ACRONYMは物理シミュレーションに基づくロボットグリップ計画のためのデータセットである。データセットには17.7Mのパラレルジャウグリップが含まれ、262の異なるカテゴリから8872のオブジェクトにまたがっている。我々は、この大規模で多様なデータセットの価値を、2つの最先端の学習に基づく把握計画アルゴリズムの訓練に利用することで示す。
論文参考訳（メタデータ） (2020-11-18T23:24:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。