論文の概要: Parametric-ControlNet: Multimodal Control in Foundation Models for Precise Engineering Design Synthesis
- arxiv url: http://arxiv.org/abs/2412.04707v1
- Date: Fri, 06 Dec 2024 01:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:02.371245
- Title: Parametric-ControlNet: Multimodal Control in Foundation Models for Precise Engineering Design Synthesis
- Title(参考訳): Parametric-ControlNet:精密エンジニアリング設計のための基礎モデルにおけるマルチモーダル制御
- Authors: Rui Zhou, Yanxia Zhang, Chenyang Yuan, Frank Permenter, Nikos Arechiga, Matt Klenk, Faez Ahmed,
- Abstract要約: 本稿では,テキストから画像への基礎的な生成AIモデルに対する,安定拡散のようなマルチモーダル制御のための生成モデルを提案する。
本モデルは,設計精度と多様性を高めるために,パラメトリック,イメージ,テキスト制御のモダリティを提案する。
- 参考スコア(独自算出の注目度): 9.900586490845694
- License:
- Abstract: This paper introduces a generative model designed for multimodal control over text-to-image foundation generative AI models such as Stable Diffusion, specifically tailored for engineering design synthesis. Our model proposes parametric, image, and text control modalities to enhance design precision and diversity. Firstly, it handles both partial and complete parametric inputs using a diffusion model that acts as a design autocomplete co-pilot, coupled with a parametric encoder to process the information. Secondly, the model utilizes assembly graphs to systematically assemble input component images, which are then processed through a component encoder to capture essential visual data. Thirdly, textual descriptions are integrated via CLIP encoding, ensuring a comprehensive interpretation of design intent. These diverse inputs are synthesized through a multimodal fusion technique, creating a joint embedding that acts as the input to a module inspired by ControlNet. This integration allows the model to apply robust multimodal control to foundation models, facilitating the generation of complex and precise engineering designs. This approach broadens the capabilities of AI-driven design tools and demonstrates significant advancements in precise control based on diverse data modalities for enhanced design generation.
- Abstract(参考訳): 本稿では,Stable Diffusionのようなテキストと画像の基盤となるAIモデルに対するマルチモーダル制御のために設計された生成モデルを提案する。
本モデルは,設計精度と多様性を高めるために,パラメトリック,イメージ,テキスト制御のモダリティを提案する。
第一に、パラメトリック入力と完全パラメトリック入力の両方を、設計のオートコンプリートコパイロットとして機能する拡散モデルを用いて処理し、パラメトリックエンコーダと組み合わせて情報を処理する。
第二に、モデルはアセンブリグラフを使用して、入力されたコンポーネントイメージを体系的にアセンブルし、コンポーネントエンコーダによって処理され、必須の視覚データをキャプチャする。
第三に、テキスト記述はCLIPエンコーディングを通じて統合され、設計意図の包括的な解釈が保証される。
これらの多様な入力はマルチモーダル融合技術によって合成され、ControlNetにインスパイアされたモジュールへの入力として機能するジョイント埋め込みを生成する。
この統合により、モデルは基盤モデルに堅牢なマルチモーダル制御を適用することができ、複雑で正確なエンジニアリング設計の創出が容易になる。
このアプローチは、AI駆動設計ツールの能力を拡大し、設計生成の強化のための多様なデータモダリティに基づく精密制御の大幅な進歩を示す。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - Bridging Design Gaps: A Parametric Data Completion Approach With Graph Guided Diffusion Models [9.900586490845694]
本研究では, グラフ注意ネットワークと表層拡散モデルを利用して, 工学設計におけるパラメトリックデータの欠落を解消する生成的計算モデルを提案する。
提案手法は従来の手法,例えばMissForest, HotDeck, PPCA, TabCSDI よりも精度と多様性に優れていた。
グラフモデルは、設計問題の鍵となるアセンブリグラフから複雑なパラメトリック相互依存性を正確にキャプチャし、インプットするのに役立つ。
論文 参考訳(メタデータ) (2024-06-17T16:03:17Z) - Text2VP: Generative AI for Visual Programming and Parametric Modeling [6.531561475204309]
本研究は、GPT-4から派生したテキスト・ツー・ビジュアルプログラミング(Text2VP)GPTを利用して、パラメトリック・モデリングにおける生成AIの革新的な応用を創出し、研究する。
主な焦点は、AI生成スクリプトを通じてパラメータとパラメータ間のリンクを含むグラフベースのビジュアルプログラミングの自動生成である。
我々のテストでは、動作パラメトリックモデルを生成するText2VPの機能を示す。
論文 参考訳(メタデータ) (2024-06-09T02:22:20Z) - Generative Design through Quality-Diversity Data Synthesis and Language Models [5.196236145367301]
エンジニアリングアプリケーションにおける2つの基本的な課題は、ハイパフォーマンスで多様なデータセットの取得と、生成された設計における正確な制約への固執である。
アーキテクチャ設計におけるこれらの課題に取り組むために,最適化,制約満足度,言語モデルを組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-16T11:30:08Z) - Adaptive Semantic Token Selection for AI-native Goal-oriented Communications [11.92172357956248]
本稿では,AIネイティブな目標指向通信のための新しい設計を提案する。
我々は、帯域幅と計算量に対する動的推論制約の下でトランスフォーマーニューラルネットワークを利用する。
提案手法は,最先端のトークン選択機構よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-25T13:49:50Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and
Generation [52.037766778458504]
我々は,Omni-perception Pre-Trainer (OPT)を提案する。
OPTは3つのシングルモーダルエンコーダを含むエンコーダ・デコーダ・フレームワークで構築され、各モダリティに対してトークンベースの埋め込みを生成する。
OPTは、強力な画像・テキスト・オーディオ・マルチモーダル表現を学習し、様々なクロスモーダル理解および生成タスクにおける有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-07-01T06:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。