論文の概要: Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description
- arxiv url: http://arxiv.org/abs/2512.11098v1
- Date: Thu, 11 Dec 2025 20:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.562607
- Title: Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description
- Title(参考訳): 付加的な製造シーン記述における赤外産業センシングのための視覚言語モデル
- Authors: Nazanin Mahjourian, Vinh Nguyen,
- Abstract要約: 赤外線カメラは、視覚システムが苦戦する低照度環境や囲い込み機械における製造環境に利点をもたらす。
視覚言語システム(VLM)の最近の進歩は、RGBデータに関連する新たなテキスト内予測を提供する。
本研究は、FLIRボソンカメラで撮影された画像の事前処理により、VLMを赤外線データに適応させるゼロショットエンコーダを導入する。
- 参考スコア(独自算出の注目度): 1.7786984823452563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many manufacturing environments operate in low-light conditions or within enclosed machines where conventional vision systems struggle. Infrared cameras provide complementary advantages in such environments. Simultaneously, supervised AI systems require large labeled datasets, which makes zero-shot learning frameworks more practical for applications including infrared cameras. Recent advances in vision-language foundation models (VLMs) offer a new path in zero-shot predictions from paired image-text representations. However, current VLMs cannot understand infrared camera data since they are trained on RGB data. This work introduces VLM-IRIS (Vision-Language Models for InfraRed Industrial Sensing), a zero-shot framework that adapts VLMs to infrared data by preprocessing infrared images captured by a FLIR Boson sensor into RGB-compatible inputs suitable for CLIP-based encoders. We demonstrate zero-shot workpiece presence detection on a 3D printer bed where temperature differences between the build plate and workpieces make the task well-suited for thermal imaging. VLM-IRIS converts the infrared images to magma representation and applies centroid prompt ensembling with a CLIP ViT-B/32 encoder to achieve high accuracy on infrared images without any model retraining. These findings demonstrate that the proposed improvements to VLMs can be effectively extended to thermal applications for label-free monitoring.
- Abstract(参考訳): 多くの製造環境は、従来の視覚システムが苦戦している低照度環境や囲い込み機械の中で機能している。
赤外線カメラは、このような環境において相補的な利点を提供する。
同時に、教師付きAIシステムは大きなラベル付きデータセットを必要とするため、赤外線カメラを含むアプリケーションではゼロショット学習フレームワークがより実用的になる。
視覚言語基礎モデル(VLM)の最近の進歩は、ペア化された画像テキスト表現からゼロショット予測の新しい経路を提供する。
しかし、現在のVLMは、RGBデータに基づいて訓練されているため、赤外線カメラデータを理解できない。
VLM-IRIS(Vision-Language Models for InfraRed Industrial Sensing)は、FLIRボソンセンサがキャプチャした赤外線画像を、CLIPベースのエンコーダに適したRGB互換の入力に前処理することで、VLMを赤外線データに適応させるゼロショットフレームワークである。
ビルドプレートとワークピースの温度差が熱画像に適している3Dプリンタベッド上で,ゼロショットワークピースの存在検知を実証した。
VLM-IRISは、赤外線画像をマグマ表現に変換し、CLIP ViT-B/32エンコーダでセントロイドプロンプトをアンサンブルすることで、モデルの再トレーニングなしに、赤外線画像の高精度を実現する。
これらの結果から,VLMの性能改善は,ラベルフリーモニタリングに有効な熱応用に拡張できることが示唆された。
関連論文リスト
- IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。
提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。
NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文 参考訳(メタデータ) (2025-11-25T13:53:54Z) - Inference-Time Scaling of Diffusion Models for Infrared Data Generation [1.452875650827562]
赤外線アプリケーションのための視覚モデルの開発は、赤外線アノテーションの専門知識によって妨げられている。
領域適応CLIPベースの検証器を用いて、赤外画像生成品質を向上させる推論時間スケーリング手法を提案する。
KAIST Multispectral Pedestrian Detection Benchmark データセットの FID スコアを10%削減した。
論文 参考訳(メタデータ) (2025-11-10T18:18:38Z) - CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery [3.490087692799367]
本稿では,赤外線ストリームを用いた暗黒環境におけるロバストなロボット認識を実現するための新しいアプローチを提案する。
オブジェクト検出、トラッキング、ローカライゼーションといったハイレベルなタスクを妨げるアクティブエミッターパターンに支配されている。
U-Netベースのアーキテクチャでは、エミッタの入力からクリーンなIR画像を再構成し、画像品質と下流ロボットの性能を改善する。
論文 参考訳(メタデータ) (2025-10-06T15:04:56Z) - Seeing Heat with Color -- RGB-Only Wildfire Temperature Inference from SAM-Guided Multimodal Distillation using Radiometric Ground Truth [5.343932820859596]
本稿では,RGB入力のみを用いた画素レベルの山火事温度予測とセグメンテーションのための新しいフレームワークSAM-TIFFを紹介する。
対のRGB-サーマル画像とラジオメトリックのTIFF地上真実を訓練したマルチモーダル教師ネットワークは、知識を単調なRGB学生ネットワークに蒸留し、熱センサレス推論を可能にする。
提案手法は,RGB UAVデータから画素あたりの温度レグレッションを初めて行い,最近のFLAME 3データセットに強い一般化を示すものである。
論文 参考訳(メタデータ) (2025-05-03T00:23:11Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - Thermal-NeRF: Neural Radiance Fields from an Infrared Camera [29.58060552299745]
本研究では,IR画像のみからNeRFの形でボリュームシーン表現を推定する最初の方法であるTherial-NeRFを紹介する。
本研究では,既存の方法よりも優れた品質が得られることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-15T14:27:15Z) - Robust Environment Perception for Automated Driving: A Unified Learning
Pipeline for Visual-Infrared Object Detection [2.478658210785]
我々は、頑健な物体検出のために、視覚と熱の両方の知覚ユニットを利用する。
本稿では,物体検出のために,視覚と熱の両方の知覚ユニットを利用する。
論文 参考訳(メタデータ) (2022-06-08T15:02:58Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。