論文の概要: Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions
- arxiv url: http://arxiv.org/abs/2302.10909v2
- Date: Fri, 28 Jul 2023 15:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:09:53.883126
- Title: Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions
- Title(参考訳): エンジニアリング設計におけるマルチモーダル機械学習 : レビューと今後の方向性
- Authors: Binyang Song, Rui Zhou, Faez Ahmed
- Abstract要約: 本稿では,マルチモーダル機械学習(MMML)の現状と課題について概観する。
本稿では,MMMLをエンジニアリング設計に適用する上での固有の課題を強調し,今後の研究の方向性を明らかにする。
次世代のインテリジェントデザインツールであるMMMLモデルは、製品の設計方法に影響を与える将来性を持っている。
- 参考スコア(独自算出の注目度): 9.213020570527451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly advancing field of multi-modal machine learning (MMML), the
convergence of multiple data modalities has the potential to reshape various
applications. This paper presents a comprehensive overview of the current
state, advancements, and challenges of MMML within the sphere of engineering
design. The review begins with a deep dive into five fundamental concepts of
MMML:multi-modal information representation, fusion, alignment, translation,
and co-learning. Following this, we explore the cutting-edge applications of
MMML, placing a particular emphasis on tasks pertinent to engineering design,
such as cross-modal synthesis, multi-modal prediction, and cross-modal
information retrieval. Through this comprehensive overview, we highlight the
inherent challenges in adopting MMML in engineering design, and proffer
potential directions for future research. To spur on the continued evolution of
MMML in engineering design, we advocate for concentrated efforts to construct
extensive multi-modal design datasets, develop effective data-driven MMML
techniques tailored to design applications, and enhance the scalability and
interpretability of MMML models. MMML models, as the next generation of
intelligent design tools, hold a promising future to impact how products are
designed.
- Abstract(参考訳): マルチモーダル機械学習(MMML)の急速に進歩する分野において、複数のデータモダリティの収束は様々なアプリケーションを再形成する可能性がある。
本稿では,工学設計分野におけるMMMLの現状,進歩,課題について概観する。
このレビューは、MMMLの5つの基本的な概念、マルチモーダル情報表現、融合、アライメント、翻訳、コラーニングから始まる。
次に,MMMLの最先端アプリケーションについて検討し,クロスモーダル合成,マルチモーダル予測,クロスモーダル情報検索など,エンジニアリング設計に関連するタスクに特に重点を置いている。
本総説では,工学設計におけるMMML導入の課題と今後の研究の方向性を明らかにする。
エンジニアリング設計におけるMMMLの継続的な発展を促進するため,我々は,広範囲なマルチモーダル設計データセットの構築,設計アプリケーションに適した効率的なデータ駆動型MMML技術の開発,MMMLモデルのスケーラビリティと解釈性の向上を提唱する。
次世代のインテリジェントデザインツールであるMMMLモデルは、製品の設計方法に影響を与える将来性を持っている。
関連論文リスト
- From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。
このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文 参考訳(メタデータ) (2024-06-27T15:36:43Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MM-LLMs: Recent Advances in MultiModal Large Language Models [49.06046606933233]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
126のMM-LLMを包含する分類法を導入し,その特異な定式化を特徴とする。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
論文 参考訳(メタデータ) (2024-01-24T17:10:45Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [30.284100018891397]
MMICT(Multi-Modal In-Context Tuning)は、マルチモーダル微調整を促進する新しいパラダイムである。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。