論文の概要: A Dataset for Mechanical Mechanisms
- arxiv url: http://arxiv.org/abs/2409.03763v1
- Date: Mon, 19 Aug 2024 19:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:41:23.424514
- Title: A Dataset for Mechanical Mechanisms
- Title(参考訳): メカニカル・メカニズムのデータセット
- Authors: Farshid Ghezelbash, Amir Hossein Eskandari, Amir J Bidhendi,
- Abstract要約: 本研究では,約9000枚の機械機構の画像とそれに対応する記述からなるデータセットを提案する。
データセットは2Dと3Dのスケッチの多様なコレクションで構成されており、関連性と品質を保証するために慎重にキュレートされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This study introduces a dataset consisting of approximately 9,000 images of mechanical mechanisms and their corresponding descriptions, aimed at supporting research in mechanism design. The dataset consists of a diverse collection of 2D and 3D sketches, meticulously curated to ensure relevance and quality. We demonstrate the application of this dataset by fine-tuning two models: 1) Stable Diffusion (for generating new mechanical designs), and 2) BLIP-2 (for captioning these designs). While the results from Stable Diffusion show promise, particularly in generating coherent 3D sketches, the model struggles with 2D sketches and occasionally produces nonsensical outputs. These limitations underscore the need for further development, particularly in expanding the dataset and refining model architectures. Nonetheless, this work serves as a step towards leveraging generative AI in mechanical design, highlighting both the potential and current limitations of these approaches.
- Abstract(参考訳): 本研究では,機構設計研究を支援するために,約9000枚の機械機構の画像とそれに対応する記述からなるデータセットを提案する。
データセットは2Dと3Dのスケッチの多様なコレクションで構成されており、関連性と品質を保証するために慎重にキュレートされている。
2つのモデルを微調整することで、このデータセットの応用を実証する。
1)安定拡散(新しい機械設計を作成するための)及び
2)BLIP-2(これらの意匠のキャプション用)
安定拡散の結果は、特にコヒーレントな3Dスケッチの生成において有望であるが、モデルは2Dスケッチと苦労し、時には非感覚的なアウトプットを生成する。
これらの制限は、特にデータセットの拡張とモデルアーキテクチャの精細化において、さらなる開発の必要性を浮き彫りにしている。
それでもこの研究は、機械設計における生成AIを活用するためのステップとして役立ち、これらのアプローチのポテンシャルと現在の限界の両方を強調している。
関連論文リスト
- 3DMolFormer: A Dual-channel Framework for Structure-based Drug Discovery [17.78777622199143]
3DMolFormerはドッキングと3Dドラッグデザインの両方に応用できる統合デュアルチャネルトランスフォーマーベースのフレームワークである。
離散トークンと連続数値の並列シーケンスを用いて3次元ポケットリガンド錯体を表現し、これに対応する2チャネルトランスモデルを設計する。
実験の結果,3DMolFormerはタンパク質リガンドドッキングとポケット型3Dドラッグの設計において,従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-02-07T17:28:10Z) - IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Generative Design through Quality-Diversity Data Synthesis and Language Models [5.196236145367301]
エンジニアリングアプリケーションにおける2つの基本的な課題は、ハイパフォーマンスで多様なデータセットの取得と、生成された設計における正確な制約への固執である。
アーキテクチャ設計におけるこれらの課題に取り組むために,最適化,制約満足度,言語モデルを組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-16T11:30:08Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - A Generative Machine Learning Model for Material Microstructure 3D
Reconstruction and Performance Evaluation [4.169915659794567]
2次元から3次元への次元展開は、現在の技術的観点から非常に難しい逆問題と見なされている。
U-netのマルチスケール特性とGANの生成能力を統合する新しい生成モデルが提案されている。
さらに、画像正規化損失とワッサーシュタイン距離損失を組み合わせることにより、モデルの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-02-24T13:42:34Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction [14.89364490991374]
本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-29T06:01:42Z) - Enhanced 3D Human Pose Estimation from Videos by using Attention-Based
Neural Network with Dilated Convolutions [12.900524511984798]
従来のネットワークや制約の形式が、どのように注意の枠組みに組み込むことができるのかを体系的な設計で示します。
拡張畳み込みのマルチスケール構造により,時間受容場を適応させることにより,これを実現する。
提案手法は,Human3.6Mデータセット上での関節位置誤差の平均を33.4mmに減らし,最先端性能を達成し,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2021-03-04T17:26:51Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。