論文の概要: JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2410.23988v1
- Date: Thu, 31 Oct 2024 14:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:41.905944
- Title: JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment
- Title(参考訳): JEMA: マルチモーダルアライメントによるスケーラブルなコラーニングのための共同埋め込みフレームワーク
- Authors: Joao Sousa, Roya Darabi, Armando Sousa, Frank Brueckner, Luís Paulo Reis, Ana Reis,
- Abstract要約: JEMA(Joint Embedding with Multimodal Alignment)は、レーザー金属沈着(LMD)に適した新しいコラーニングフレームワークである。
教師付きコントラスト学習と比較して,マルチモーダル・セッティングのパフォーマンスは8%向上し,ユニモーダル・セッティングは1%向上した。
我々のフレームワークは、メタデータとマルチセンサデータを統合する基盤を築き、MDドメイン以降の様々な下流タスクを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work introduces JEMA (Joint Embedding with Multimodal Alignment), a novel co-learning framework tailored for laser metal deposition (LMD), a pivotal process in metal additive manufacturing. As Industry 5.0 gains traction in industrial applications, efficient process monitoring becomes increasingly crucial. However, limited data and the opaque nature of AI present challenges for its application in an industrial setting. JEMA addresses this challenges by leveraging multimodal data, including multi-view images and metadata such as process parameters, to learn transferable semantic representations. By applying a supervised contrastive loss function, JEMA enables robust learning and subsequent process monitoring using only the primary modality, simplifying hardware requirements and computational overhead. We investigate the effectiveness of JEMA in LMD process monitoring, focusing specifically on its generalization to downstream tasks such as melt pool geometry prediction, achieved without extensive fine-tuning. Our empirical evaluation demonstrates the high scalability and performance of JEMA, particularly when combined with Vision Transformer models. We report an 8% increase in performance in multimodal settings and a 1% improvement in unimodal settings compared to supervised contrastive learning. Additionally, the learned embedding representation enables the prediction of metadata, enhancing interpretability and making possible the assessment of the added metadata's contributions. Our framework lays the foundation for integrating multisensor data with metadata, enabling diverse downstream tasks within the LMD domain and beyond.
- Abstract(参考訳): JEMA(Joint Embedding with Multimodal Alignment)は、金属添加物製造における重要なプロセスであるレーザー金属の堆積(LMD)に適した新しいコラーニングフレームワークである。
産業用5.0が産業用アプリケーションで勢いを増すにつれ、効率的なプロセス監視がますます重要になっている。
しかし、限られたデータとAIの不透明な性質は、産業環境でその応用に挑戦する。
JEMAは、マルチビューイメージやプロセスパラメータなどのメタデータを含むマルチモーダルデータを活用して、転送可能なセマンティック表現を学習することで、この問題に対処する。
教師付きコントラスト損失関数を適用することで、JEMAはハードウェア要件と計算オーバーヘッドを簡素化し、一次モードのみを使用して堅牢な学習とその後のプロセス監視を可能にする。
LMDプロセス監視におけるJEMAの有効性について検討し,融解プール幾何予測などの下流タスクへの一般化に焦点をあてる。
我々の経験的評価は、特にビジョントランスフォーマーモデルと組み合わせた場合、JEMAのスケーラビリティと性能を示している。
教師付きコントラスト学習と比較して,マルチモーダル・セッティングのパフォーマンスは8%向上し,ユニモーダル・セッティングは1%向上した。
さらに、学習された埋め込み表現はメタデータの予測を可能にし、解釈可能性を高め、付加されたメタデータのコントリビューションを評価することができる。
我々のフレームワークは、メタデータとマルチセンサデータを統合する基盤を築き、MDドメイン以降の様々な下流タスクを可能にする。
関連論文リスト
- Unsupervised Multimodal Fusion of In-process Sensor Data for Advanced Manufacturing Process Monitoring [0.0]
本稿では,製造プロセスにおけるマルチモーダルセンサデータ融合に対する新しいアプローチを提案する。
我々は、ラベル付きデータなしで異なるデータモダリティを相関付けるために、対照的な学習手法を活用している。
本手法は,プロセス制御,異常検出,品質保証などの下流タスクを容易にする。
論文 参考訳(メタデータ) (2024-10-29T21:52:04Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Machine Learning based Indicators to Enhance Process Monitoring by
Pattern Recognition [0.4893345190925177]
パターンタイプと強度を組み合わせた機械学習に基づく指標のための新しいフレームワークを提案する。
半導体産業のケーススタディでは,従来のプロセス制御を越え,高品質な実験結果を得る。
論文 参考訳(メタデータ) (2021-03-24T10:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。