論文の概要: Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
- arxiv url: http://arxiv.org/abs/2512.24160v1
- Date: Tue, 30 Dec 2025 11:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.371418
- Title: Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
- Title(参考訳): 大規模マルチモーダルデータセットを用いたオープンボキャブラリ産業欠陥理解に向けて
- Authors: TsaiChing Ni, ZhenQi Chen, YuanFu Yang,
- Abstract要約: IMDD-1Mは,1000,000組の画像テキストペアからなる,最初の大規模産業用マルチモーダル欠陥データセットである。
このデータセットは、分類、セグメンテーション、検索、キャプション、生成モデリングを含む広範囲のアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.
- Abstract(参考訳): IMDD-1Mは,製造および品質検査のためのマルチモーダル学習を促進するために,1000,000組の画像テキストペアからなる,最初の大規模産業用マルチモーダル欠陥データセットである。
IMDD-1Mは60以上の素材カテゴリと400以上の欠陥タイプにまたがる高解像度の現実世界の欠陥を含み、それぞれに専門家が検証したアノテーションと、欠陥位置、重大さ、コンテキスト属性を詳述した詳細なテキスト記述が付属している。
このデータセットは、分類、セグメンテーション、検索、キャプション、生成モデリングを含む広範囲のアプリケーションを可能にする。
IMDD-1Mをベースとして,産業シナリオに適した拡散型視覚言語基盤モデルをスクラッチから訓練する。
このモデルは、軽量な微調整により、専門分野に効率的に適応できる一般化可能な基盤として機能する。
専門のエキスパートモデルに必要なタスク固有のデータの5%以下で、同等のパフォーマンスを達成し、産業検査と生成のためのデータ効率の良い基礎モデルの適用の可能性を強調し、スケーラブルでドメイン適応的で知識に基づく製造インテリジェンスへの道を開く。
関連論文リスト
- VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment [88.83260031198023]
本稿では,視覚エンコーダを中心とした生成事前学習パイプラインを提案し,VITAL-Series LMMを開発した。
これまでで最大のVQualAトレーニングデータセットである、450万以上の視覚言語(VL)ペアを構築した。
モデルの定量的スコアリング精度を同時に向上するマルチタスクトレーニングワークフローを採用している。
論文 参考訳(メタデータ) (2025-11-22T07:55:21Z) - SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials [16.756001896133757]
材料強度の問題に関する基礎モデルを評価するための,最初の大規模マルチモーダルベンチマークデータセットであるSoM-1Kを紹介する。
この研究は、エンジニアリングAIのための厳格なベンチマークを確立し、より堅牢なマルチモーダル推論機能を開発するための重要なニーズを強調している。
論文 参考訳(メタデータ) (2025-09-25T12:28:22Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。