論文の概要: Linking heterogeneous microstructure informatics with expert characterization knowledge through customized and hybrid vision-language representations for industrial qualification
- arxiv url: http://arxiv.org/abs/2508.20243v1
- Date: Wed, 27 Aug 2025 19:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.779943
- Title: Linking heterogeneous microstructure informatics with expert characterization knowledge through customized and hybrid vision-language representations for industrial qualification
- Title(参考訳): 産業資格のためのカスタマイズおよびハイブリッド視覚言語表現による異種マイクロ構造情報と専門家評価知識のリンク
- Authors: Mutahar Safdar, Gentry Wood, Max Zimmermann, Guy Lamouche, Priti Wanjara, Yaoyao Fiona Zhao,
- Abstract要約: 本研究は, マイクロ構造情報学を専門的な評価知識と結びつけた新しい枠組みを提案する。
深層セマンティックセグメンテーションと事前訓練されたマルチモーダルモデルを統合することにより、視覚的ミクロ構造データとテキストによる専門家評価の両方を共有表現にエンコードする。
- 参考スコア(独自算出の注目度): 3.2038915276197932
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Rapid and reliable qualification of advanced materials remains a bottleneck in industrial manufacturing, particularly for heterogeneous structures produced via non-conventional additive manufacturing processes. This study introduces a novel framework that links microstructure informatics with a range of expert characterization knowledge using customized and hybrid vision-language representations (VLRs). By integrating deep semantic segmentation with pre-trained multi-modal models (CLIP and FLAVA), we encode both visual microstructural data and textual expert assessments into shared representations. To overcome limitations in general-purpose embeddings, we develop a customized similarity-based representation that incorporates both positive and negative references from expert-annotated images and their associated textual descriptions. This allows zero-shot classification of previously unseen microstructures through a net similarity scoring approach. Validation on an additively manufactured metal matrix composite dataset demonstrates the framework's ability to distinguish between acceptable and defective samples across a range of characterization criteria. Comparative analysis reveals that FLAVA model offers higher visual sensitivity, while the CLIP model provides consistent alignment with the textual criteria. Z-score normalization adjusts raw unimodal and cross-modal similarity scores based on their local dataset-driven distributions, enabling more effective alignment and classification in the hybrid vision-language framework. The proposed method enhances traceability and interpretability in qualification pipelines by enabling human-in-the-loop decision-making without task-specific model retraining. By advancing semantic interoperability between raw data and expert knowledge, this work contributes toward scalable and domain-adaptable qualification strategies in engineering informatics.
- Abstract(参考訳): 先進的な材料の迅速かつ信頼性の高い資格は、特に非伝統的な添加物製造プロセスを通じて製造される異種構造において、工業製造においてボトルネックとなっている。
本研究では, マイクロ構造情報学を, カスタマイズ・ハイブリッド視覚言語表現(VLR)を用いて, 多様な専門知識と結びつける新しい枠組みを提案する。
深層セマンティックセグメンテーションを事前訓練されたマルチモーダルモデル(CLIPとFLAVA)と統合することにより、視覚的ミクロ構造データとテキスト専門家評価の両方を共有表現にエンコードする。
汎用埋め込みの限界を克服するため,専門家注釈画像と関連するテキスト記述からの正と負の両方の参照を含む,カスタマイズされた類似性に基づく表現を開発した。
これにより、網の類似性スコアリングアプローチにより、それまで目に見えない微細構造のゼロショット分類が可能となる。
追加で製造された金属マトリックス複合データセットの検証は、様々な評価基準で許容できるサンプルと欠陥サンプルを区別するフレームワークの能力を示している。
比較分析により、FLAVAモデルは高い視覚感度を提供する一方、CLIPモデルはテキストの基準と整合性を持つことが示された。
Zスコア正規化は、その局所的なデータセット駆動分布に基づいて、生の単調およびクロスモーダル類似度スコアを調整し、ハイブリッドビジョン言語フレームワークにおけるより効果的なアライメントと分類を可能にする。
提案手法は,タスク固有のモデルの再トレーニングを伴わずに,人間のループ内決定を可能にすることで,資格パイプラインのトレーサビリティと解釈性を向上させる。
生のデータと専門家の知識のセマンティックな相互運用性を推し進めることで、この研究は工学情報学におけるスケーラブルでドメイン順応可能な資格戦略に寄与する。
関連論文リスト
- Shortcut Learning Susceptibility in Vision Classifiers [3.004632712148892]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。
この現象は、視覚、自然言語処理、音声認識など、さまざまな機械学習アプリケーションで広く利用されている。
クラスラベルと位置相関するデータセットに意図的にショートカットを導入することで,これらのアーキテクチャを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-13T10:25:52Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z) - ExpertNet: A Symbiosis of Classification and Clustering [22.324813752423044]
ExpertNetは、クラスタ化された潜在表現を学習し、クラスタ固有の分類器を効果的に組み合わせてそれらを活用するために、新しいトレーニング戦略を使用している。
本研究では,6つの大規模臨床データセットの最先端手法に対するExpertNetの優位性を実証する。
論文 参考訳(メタデータ) (2022-01-17T11:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。