論文の概要: FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
- arxiv url: http://arxiv.org/abs/2604.07413v1
- Date: Wed, 08 Apr 2026 12:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.459727
- Title: FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
- Title(参考訳): FORGE:製造シナリオのマルチモーダル評価
- Authors: Xiangru Jian, Hao Xu, Wei Pang, Xinjian Zhao, Chengyu Tao, Qixin Zhang, Xikun Zhang, Chao Zhang, Guanzhi Deng, Alex Xue, Juan Du, Tianshu Yu, Garth Tarr, Linqi Song, Qiuzhuang Sun, Dacheng Tao,
- Abstract要約: 製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
- 参考スコア(独自算出の注目度): 58.34124792457706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.
- Abstract(参考訳): 製造業セクターは、単純な認識から自律的な実行への移行に向けて、MLLM(Multimodal Large Language Models)の採用が増えているが、現在の評価は、現実の製造業環境の厳密な要求を反映していない。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
このギャップを埋めるために、ForGEを紹介します。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせた高品質なマルチモーダルデータセットを構築します。
次に,3つの製造課題,すなわちワークピース検証,構造表面検査,組立検証の18の最先端MLLMを評価し,大幅な性能差を明らかにした。
従来の理解とは対照的に、ボトルネック分析は視覚的接地が主要な制限要因ではないことを示している。
代わりに、ドメイン固有の知識が不足することが重要なボトルネックであり、将来の研究の明確な方向性を定めている。
我々のデータに対するコンパクトな3Bパラメータモデルの微調整は、保持された製造シナリオの精度を最大90.8%向上させ、ドメイン適応型製造MLLMへの実践的経路の予備的証拠を提供する。
コードとデータセットはhttps://ai4manufacturing.github.io/forge-webで公開されている。
関連論文リスト
- MOON3.0: Reasoning-aware Multimodal Representation Learning for E-commerce Product Understanding [13.985610562698348]
我々は、MLLMの推論能力を利用して、きめ細かい製品属性を明示的にモデル化することが大きな可能性を秘めていると論じる。
製品表現学習のためのMLLMに基づく最初の推論モデルであるMOON3.0を提案する。
論文 参考訳(メタデータ) (2026-04-01T05:55:25Z) - LLM-Driven 3D Scene Generation of Agricultural Simulation Environments [1.002902747701998]
3Dシーン生成のための大規模言語モデル(LLM)は、将来性を示すが、しばしばドメイン固有の推論、検証機構、モジュール設計を欠いている。
本稿では,LLMを用いて自然言語のプロンプトから農業用合成シミュレーション環境を生成する。
モジュール型マルチLLMパイプラインを開発し、3Dアセット検索、ドメイン知識注入、Unrealレンダリングエンジンのためのコード生成を統合した。
論文 参考訳(メタデータ) (2026-02-12T08:33:01Z) - Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文 参考訳(メタデータ) (2025-08-07T17:12:54Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。