論文の概要: Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions
- arxiv url: http://arxiv.org/abs/2302.10909v1
- Date: Tue, 14 Feb 2023 01:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:30:17.441470
- Title: Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions
- Title(参考訳): エンジニアリング設計におけるマルチモーダル機械学習 : レビューと今後の方向性
- Authors: Binyang Song, Rui Zhou, Faez Ahmed
- Abstract要約: マルチモーダル機械学習(Multi-modal machine learning, MMML)は、様々な応用において有望な結果を示してきた。
本稿では,工学設計タスクにおけるMMMLの最近の進歩と課題について概説する。
- 参考スコア(独自算出の注目度): 9.213020570527451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal machine learning (MMML), which involves integrating multiple
modalities of data and their corresponding processing methods, has demonstrated
promising results in various practical applications, such as text-to-image
translation. This review paper summarizes the recent progress and challenges in
using MMML for engineering design tasks. First, we introduce the different data
modalities commonly used as design representations and involved in MMML,
including text, 2D pixel data (e.g., images and sketches), and 3D shape data
(e.g., voxels, point clouds, and meshes). We then provide an overview of the
various approaches and techniques used for representing, fusing, aligning,
synthesizing, and co-learning multi-modal data as five fundamental concepts of
MMML. Next, we review the state-of-the-art capabilities of MMML that
potentially apply to engineering design tasks, including design knowledge
retrieval, design evaluation, and design synthesis. We also highlight the
potential benefits and limitations of using MMML in these contexts. Finally, we
discuss the challenges and future directions in using MMML for engineering
design, such as the need for large labeled multi-modal design datasets, robust
and scalable algorithms, integrating domain knowledge, and handling data
heterogeneity and noise. Overall, this review paper provides a comprehensive
overview of the current state and prospects of MMML for engineering design
applications.
- Abstract(参考訳): マルチモーダル機械学習(mmml、multi-modal machine learning)は、データの複数のモーダル性とそれに対応する処理方法を統合することで、テキストから画像への翻訳など、さまざまな実用的な応用において有望な結果をもたらす。
本稿では,工学設計タスクにおけるMMMLの最近の進歩と課題について概説する。
まず,テキストや2Dピクセルデータ(画像やスケッチなど),3D形状データ(ボクセル,点雲,メッシュなど)など,設計表現として一般的に使用されるさまざまなデータモダリティを紹介する。
次に、MMMLの5つの基本概念として、マルチモーダルデータの表現、融合、整合、合成、コラーニングに使用される様々な手法の概要を示す。
次に,設計知識検索,設計評価,設計合成などの工学的設計タスクに適用可能なMMMLの最先端機能について概説する。
また、これらの文脈でMMMLを使用することの潜在的な利点と限界を強調します。
最後に,大規模ラベル付きマルチモーダル設計データセットの必要性,堅牢でスケーラブルなアルゴリズム,ドメイン知識の統合,データの不均一性とノイズ処理など,エンジニアリング設計にMMMLを使用する上での課題と今後の方向性について論じる。
総括的に,本論文は工学設計アプリケーションにおけるmmmlの現状と展望について概観する。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - MM-LLMs: Recent Advances in MultiModal Large Language Models [51.52063849558428]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
MM-LLMのさらなる研究を促進するための総合的な調査を行う。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
論文 参考訳(メタデータ) (2024-01-24T17:10:45Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [30.284100018891397]
MMICT(Multi-Modal In-Context Tuning)は、マルチモーダル微調整を促進する新しいパラダイムである。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Large AI Model Empowered Multimodal Semantic Communications [51.17527319441436]
本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - A Survey on Multimodal Large Language Models [56.754753799607585]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。
MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MDE for Machine Learning-Enabled Software Systems: A Case Study and
Comparison of MontiAnna & ML-Quadrat [5.839906946900443]
我々は,モノのインターネット(IoT)分野に着目した機械学習対応ソフトウェアシステムの開発に,MDEパラダイムを採用することを提案する。
ケーススタディで実証されたように、最先端のオープンソースモデリングツールであるMontiAnnaとML-Quadratが、この目的のためにどのように使用できるかを説明します。
論文 参考訳(メタデータ) (2022-09-15T13:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。