論文の概要: GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design
- arxiv url: http://arxiv.org/abs/2409.17045v1
- Date: Wed, 25 Sep 2024 15:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:04:59.652281
- Title: GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design
- Title(参考訳): GeoBiked: エンジニアリング設計における深部生成モデルを可能にする幾何学的特徴と自動ラベル技術を備えたデータセット
- Authors: Phillip Mueller, Sebastian Mueller, Lars Mikelsons,
- Abstract要約: GeoBikedは4つの355枚の自転車画像を含むようにキュレーションされており、構造的および技術的特徴を付加している。
大規模基盤モデルを用いてデータラベリングを自動化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We provide a dataset for enabling Deep Generative Models (DGMs) in engineering design and propose methods to automate data labeling by utilizing large-scale foundation models. GeoBiked is curated to contain 4 355 bicycle images, annotated with structural and technical features and is used to investigate two automated labeling techniques: The utilization of consolidated latent features (Hyperfeatures) from image-generation models to detect geometric correspondences (e.g. the position of the wheel center) in structural images and the generation of diverse text descriptions for structural images. GPT-4o, a vision-language-model (VLM), is instructed to analyze images and produce diverse descriptions aligned with the system-prompt. By representing technical images as Diffusion-Hyperfeatures, drawing geometric correspondences between them is possible. The detection accuracy of geometric points in unseen samples is improved by presenting multiple annotated source images. GPT-4o has sufficient capabilities to generate accurate descriptions of technical images. Grounding the generation only on images leads to diverse descriptions but causes hallucinations, while grounding it on categorical labels restricts the diversity. Using both as input balances creativity and accuracy. Successfully using Hyperfeatures for geometric correspondence suggests that this approach can be used for general point-detection and annotation tasks in technical images. Labeling such images with text descriptions using VLMs is possible, but dependent on the models detection capabilities, careful prompt-engineering and the selection of input information. Applying foundation models in engineering design is largely unexplored. We aim to bridge this gap with a dataset to explore training, finetuning and conditioning DGMs in this field and suggesting approaches to bootstrap foundation models to process technical images.
- Abstract(参考訳): 工学設計における深層生成モデル(DGM)を実現するためのデータセットを提供し,大規模基盤モデルを用いてデータラベリングを自動化する手法を提案する。
GeoBikedは4つの355個の自転車画像を含むようにキュレートされ、構造的特徴と技術的特徴を付加し、2つの自動ラベリング技術(画像生成モデルからの集積潜時特徴(Hyperfeatures)を利用して構造的画像中の幾何対応(例えば車輪中心の位置)を検出し、構造的画像のための多様なテキスト記述を生成する)。
視覚言語モデル(VLM)であるGPT-4oは、画像を分析し、システムプロンプトに沿った多様な記述を生成するよう指示される。
技術的イメージを拡散ハイパーフィーチャーとして表現することにより、それらの間の幾何学的対応を描くことができる。
複数のアノテートされたソース画像を表示することにより、見知らぬサンプルにおける幾何点の検出精度を向上させる。
GPT-4oは技術画像の正確な記述を生成するのに十分な能力を持っている。
画像のみに基づく生成は、多様な記述をもたらすが、幻覚を引き起こす一方、分類ラベルに基づく生成は多様性を制限する。
入力として両方を使用すると、創造性と精度のバランスがとれる。
幾何対応にHyperfeaturesを使うことは、この手法が技術画像の一般的な点検出およびアノテーションタスクに利用できることを示唆している。
このような画像にVLMを用いたテキスト記述をラベル付けすることは可能だが、モデル検出機能、注意深いプロンプトエンジニアリング、入力情報の選択に依存している。
エンジニアリング設計に基礎モデルを適用することは、ほとんど探索されていない。
このギャップをデータセットで埋めて、この分野におけるDGMの訓練、微調整、条件付けを探索し、基礎モデルのブートストラップによる技術イメージの処理アプローチを提案する。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - GeoDecoder: Empowering Multimodal Map Understanding [3.164495478670176]
GeoDecoderは、地図内の地理空間情報を処理するために設計された、専用のマルチモーダルモデルである。
GeoDecoderはBeitGPTアーキテクチャに基づいて構築されており、画像やテキスト処理の専門的なモジュールが組み込まれている。
論文 参考訳(メタデータ) (2024-01-26T02:39:40Z) - GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data
Generation [91.01581867841894]
様々な幾何学的条件をテキストプロンプトに柔軟に翻訳できるシンプルなフレームワークであるGeoDiffusionを提案する。
われわれのGeoDiffusionは、バウンディングボックスだけでなく、自動運転シーンのカメラビューのような余分な幾何学的条件もエンコードできる。
論文 参考訳(メタデータ) (2023-06-07T17:17:58Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs [0.0]
画素レベル条件 (PLC) と特徴レベル条件 (FLC) を同時に条件付きで合成する条件生成モデル VAE-Info-cGAN を提案する。
提案モデルでは,道路網の時間的表現のみを条件に,異なる地理的位置をまたいだ様々な形態のマクロアグリゲーションを高精度に生成することができる。
論文 参考訳(メタデータ) (2021-09-11T06:58:19Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。