論文の概要: Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems
- arxiv url: http://arxiv.org/abs/2512.20387v2
- Date: Fri, 26 Dec 2025 07:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.817037
- Title: Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems
- Title(参考訳): ディジタル双極子生成:実行可能産業システムのためのビジョンランゲージシミュレーションモデル
- Authors: YuChe Hsu, AnJui Wang, TsaiChing Ni, YuanFu Yang,
- Abstract要約: 視覚とテキストの理解を統合して実行可能なFlexScriptを合成する視覚言語シミュレーションモデル(VLSM)を提案する。
この新たなパラダイムをサポートするために、この研究では、生成デジタル双生児のための最初の大規模データセットを構築した。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Vision-Language Simulation Model (VLSM) that unifies visual and textual understanding to synthesize executable FlexScript from layout sketches and natural-language prompts, enabling cross-modal reasoning for industrial simulation systems. To support this new paradigm, the study constructs the first large-scale dataset for generative digital twins, comprising over 120,000 prompt-sketch-code triplets that enable multimodal learning between textual descriptions, spatial structures, and simulation logic. In parallel, three novel evaluation metrics, Structural Validity Rate (SVR), Parameter Match Rate (PMR), and Execution Success Rate (ESR), are proposed specifically for this task to comprehensively evaluate structural integrity, parameter fidelity, and simulator executability. Through systematic ablation across vision encoders, connectors, and code-pretrained language backbones, the proposed models achieve near-perfect structural accuracy and high execution robustness. This work establishes a foundation for generative digital twins that integrate visual reasoning and language understanding into executable industrial simulation systems.
- Abstract(参考訳): 本稿では,視覚的およびテキスト的理解を統合化して,レイアウトスケッチや自然言語のプロンプトから実行可能なFlexScriptを合成し,産業シミュレーションシステムにおけるクロスモーダル推論を可能にするビジョン・ランゲージ・シミュレーション・モデルを提案する。
この新たなパラダイムをサポートするために、本研究では、テキスト記述、空間構造、シミュレーションロジック間のマルチモーダル学習を可能にする12万以上のプロンプト・スケッチ・コード三重項からなる、生成デジタル双生児のための最初の大規模データセットを構築した。
並行して, 構造的整合性, パラメータ忠実度, シミュレータ実行可能性の総合評価を行うために, 3つの新しい評価指標, 構造的妥当性率 (SVR) , パラメータマッチング率 (PMR) , 実行成功率 (ESR) が提案されている。
視覚エンコーダ、コネクタ、およびコード事前制約された言語バックボーン間の系統的アブレーションにより、提案モデルは、ほぼ完全な構造精度と高い実行ロバスト性を達成する。
この研究は、視覚的推論と言語理解を実行可能な産業シミュレーションシステムに統合する生成的デジタルツインの基礎を確立する。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文 参考訳(メタデータ) (2025-07-14T18:00:34Z) - A Neurosymbolic Agent System for Compositional Visual Reasoning [31.649454833851863]
既存の視覚言語モデル (VLM) は、構成的な視覚的推論によって依然として挑戦されている。
本稿では,効率的な構成的視覚推論のための視覚・言語エージェントシステムの開発に,ニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:55:55Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - LLM experiments with simulation: Large Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins [4.773175285216063]
本稿では,大規模言語モデル(LLM)を適用し,デジタル双生児におけるシミュレーションモデルのパラメトリゼーションを自動化する新しいフレームワークを提案する。
提案手法は,LLMの知識を取り入れたシミュレーションモデルのユーザビリティを向上させる。
このシステムは、ユーザのフレンドリさを高め、人間のユーザの認知負荷を軽減する可能性がある。
論文 参考訳(メタデータ) (2024-05-28T11:59:40Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - From Natural Language to Simulations: Applying GPT-3 Codex to Automate
Simulation Modeling of Logistics Systems [0.0]
この研究は、物流にとって重要なシステムのシミュレーションモデルの開発を自動化するために自然言語処理を適用する最初の試みである。
我々は,変換言語モデルであるGPT-3コーデックスをベースとしたフレームワークが,言語記述による待ち行列と在庫制御系の機能的に有効なシミュレーションを生成できることを実証した。
論文 参考訳(メタデータ) (2022-02-24T14:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。