Fugu-MT 論文翻訳(概要): Multi-modal Machine Learning in Engineering Design: A Review and Future Directions

論文の概要: Multi-modal Machine Learning in Engineering Design: A Review and Future Directions

arxiv url: http://arxiv.org/abs/2302.10909v1
Date: Tue, 14 Feb 2023 01:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 13:30:17.441470
Title: Multi-modal Machine Learning in Engineering Design: A Review and Future Directions
Title（参考訳）: エンジニアリング設計におけるマルチモーダル機械学習 : レビューと今後の方向性
Authors: Binyang Song, Rui Zhou, Faez Ahmed
Abstract要約: マルチモーダル機械学習(Multi-modal machine learning, MMML)は、様々な応用において有望な結果を示してきた。本稿では,工学設計タスクにおけるMMMLの最近の進歩と課題について概説する。
参考スコア（独自算出の注目度）: 9.213020570527451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal machine learning (MMML), which involves integrating multiple modalities of data and their corresponding processing methods, has demonstrated promising results in various practical applications, such as text-to-image translation. This review paper summarizes the recent progress and challenges in using MMML for engineering design tasks. First, we introduce the different data modalities commonly used as design representations and involved in MMML, including text, 2D pixel data (e.g., images and sketches), and 3D shape data (e.g., voxels, point clouds, and meshes). We then provide an overview of the various approaches and techniques used for representing, fusing, aligning, synthesizing, and co-learning multi-modal data as five fundamental concepts of MMML. Next, we review the state-of-the-art capabilities of MMML that potentially apply to engineering design tasks, including design knowledge retrieval, design evaluation, and design synthesis. We also highlight the potential benefits and limitations of using MMML in these contexts. Finally, we discuss the challenges and future directions in using MMML for engineering design, such as the need for large labeled multi-modal design datasets, robust and scalable algorithms, integrating domain knowledge, and handling data heterogeneity and noise. Overall, this review paper provides a comprehensive overview of the current state and prospects of MMML for engineering design applications.
Abstract（参考訳）: マルチモーダル機械学習(mmml、multi-modal machine learning)は、データの複数のモーダル性とそれに対応する処理方法を統合することで、テキストから画像への翻訳など、さまざまな実用的な応用において有望な結果をもたらす。本稿では,工学設計タスクにおけるMMMLの最近の進歩と課題について概説する。まず,テキストや2Dピクセルデータ(画像やスケッチなど),3D形状データ(ボクセル,点雲,メッシュなど)など,設計表現として一般的に使用されるさまざまなデータモダリティを紹介する。次に、MMMLの5つの基本概念として、マルチモーダルデータの表現、融合、整合、合成、コラーニングに使用される様々な手法の概要を示す。次に,設計知識検索,設計評価,設計合成などの工学的設計タスクに適用可能なMMMLの最先端機能について概説する。また、これらの文脈でMMMLを使用することの潜在的な利点と限界を強調します。最後に,大規模ラベル付きマルチモーダル設計データセットの必要性,堅牢でスケーラブルなアルゴリズム,ドメイン知識の統合,データの不均一性とノイズ処理など,エンジニアリング設計にMMMLを使用する上での課題と今後の方向性について論じる。総括的に,本論文は工学設計アプリケーションにおけるmmmlの現状と展望について概観する。

関連論文リスト

Multilingual Multimodal Software Developer for Code Generation [35.33149292210637]
マルチ言語マルチモーダルソフトウェア開発者のMM-Coderを紹介する。 MM-Coderはビジュアルデザインインプット-UML(Unified Language)ダイアグラムとフローチャートを統合している。 MMEvalは、マルチモーダルコード生成を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2025-07-11T16:19:53Z)
Multi-modal Summarization in Model-Based Engineering: Automotive Software Development Case Study [3.6738896410816007]
多様なデータモダリティからの情報を統合するマルチモーダル要約は、様々なプロセスにおける情報理解を支援するための有望なソリューションである。マルチモーダル要約の応用と利点は、モデルベース工学(MBE)においてあまり注目を集めておらず、複雑なシステムの設計と開発において基盤となっている。
論文参考訳（メタデータ） (2025-03-06T14:53:37Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文参考訳（メタデータ） (2024-06-27T15:36:43Z)
A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文参考訳（メタデータ） (2024-03-28T15:53:45Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
MM-LLMs: Recent Advances in MultiModal Large Language Models [49.06046606933233]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 126のMM-LLMを包含する分類法を導入し,その特異な定式化を特徴とする。本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
論文参考訳（メタデータ） (2024-01-24T17:10:45Z)
MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。 M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。 M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文参考訳（メタデータ） (2023-12-11T13:11:04Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。