論文の概要: Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams
- arxiv url: http://arxiv.org/abs/2601.13299v1
- Date: Mon, 19 Jan 2026 18:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.014485
- Title: Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams
- Title(参考訳): Enginuity: 複雑なエンジニアリングダイアグラムのオープンなマルチドメインデータセットの構築
- Authors: Ethan Seefried, Prahitha Movva, Naga Harshita Marupaka, Tilak Kasturi, Tirthankar Ghosal,
- Abstract要約: Enginuity - 自動ダイアグラム解析用に設計された包括的な構造アノテーションを備えた、最初のオープンで大規模なマルチドメインエンジニアリングダイアグラムデータセットを提案する。
階層的なコンポーネント関係,コネクション,セマンティック要素をさまざまなエンジニアリング領域にわたって取得することにより,提案したデータセットは,構造化図解析,クロスモーダル情報検索,AI支援エンジニアリングシミュレーションなどの重要な下流タスクに,マルチモーダルな大規模言語モデルで対処することが可能になる。
- 参考スコア(独自算出の注目度): 2.8809775760443657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Enginuity - the first open, large-scale, multi-domain engineering diagram dataset with comprehensive structural annotations designed for automated diagram parsing. By capturing hierarchical component relationships, connections, and semantic elements across diverse engineering domains, our proposed dataset would enable multimodal large language models to address critical downstream tasks including structured diagram parsing, cross-modal information retrieval, and AI-assisted engineering simulation. Enginuity would be transformative for AI for Scientific Discovery by enabling artificial intelligence systems to comprehend and manipulate the visual-structural knowledge embedded in engineering diagrams, breaking down a fundamental barrier that currently prevents AI from fully participating in scientific workflows where diagram interpretation, technical drawing analysis, and visual reasoning are essential for hypothesis generation, experimental design, and discovery.
- Abstract(参考訳): Enginuity - 自動ダイアグラム解析用に設計された包括的な構造アノテーションを備えた、最初のオープンで大規模なマルチドメインエンジニアリングダイアグラムデータセットを提案する。
階層的なコンポーネント関係,コネクション,セマンティック要素をさまざまなエンジニアリング領域にわたって取得することにより,提案したデータセットは,構造化図解析,クロスモーダル情報検索,AI支援エンジニアリングシミュレーションなどの重要な下流タスクに,マルチモーダルな大規模言語モデルで対処することが可能になる。
人工知能システムは、エンジニアリングダイアグラムに埋め込まれた視覚的構造的知識を理解し、操作できるようにし、図解釈、技術的描画分析、視覚的推論が仮説生成、実験設計、発見に不可欠である科学ワークフローにAIが完全に参加することを防ぐ基本的な障壁を壊す。
関連論文リスト
- Artificial Intelligence in Materials Science and Engineering: Current Landscape, Key Challenges, and Future Trajectorie [0.28279056210896714]
AIは材料研究者にとって不可欠な能力になりつつある。
我々は、CNN、GNN、Transformersを含む機械学習アプローチのスペクトルを、新たな生成AIと確率モデルとともに調査する。
また、この分野でのデータの役割を重要視し、機械学習モデルの性能をいかに効果的に表現し、成果を上げるかを強調した。
論文 参考訳(メタデータ) (2026-01-18T19:36:10Z) - Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。
SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。
本稿では,この新興領域を体系的に調査する。
論文 参考訳(メタデータ) (2026-01-15T18:55:03Z) - Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Toward Knowledge-Guided AI for Inverse Design in Manufacturing: A Perspective on Domain, Physics, and Human-AI Synergy [0.8399688944263844]
AIは製造における逆設計を再構築し、材料、製品、プロセスにおける高性能な発見を可能にしている。
しかし、純粋にデータ駆動のアプローチは、スパースデータ、高次元の設計空間、複雑な制約によって特徴づけられる現実的な製造環境に苦しむことが多い。
この視点は、3つの補完的な柱の上に構築された統合フレームワークを提案する: 物理的に意味のある目的と制約を確立するためのドメイン知識と、限定的または偏りのあるデータに基づく一般化を強化する物理インフォームド機械学習、直感的で人間中心のインタラクションをサポートするための大規模言語モデルベースのインターフェイス。
論文 参考訳(メタデータ) (2025-05-29T08:15:27Z) - Deep Learning and Machine Learning -- Object Detection and Semantic Segmentation: From Theory to Applications [17.571124565519263]
オブジェクト検出とセマンティックセグメンテーションの詳細な探索を行う。
機械学習とディープラーニングの最先端を概観する。
ビッグデータ処理の解析について述べる。
論文 参考訳(メタデータ) (2024-10-21T02:10:49Z) - Customized Information and Domain-centric Knowledge Graph Construction with Large Language Models [0.0]
本稿では,構造化情報へのタイムリーなアクセスを実現するための知識グラフに基づく新しいアプローチを提案する。
本フレームワークは,情報検索,キーフレーズ抽出,セマンティックネットワーク生成,トピックマップ可視化などを含むテキストマイニングプロセスを含む。
当社の方法論を自動車電気システムの領域に適用して,スケーラブルなアプローチを実証する。
論文 参考訳(メタデータ) (2024-09-30T07:08:28Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。