論文の概要: Vision-Language Based Expert Reporting for Painting Authentication and Defect Detection
- arxiv url: http://arxiv.org/abs/2603.13437v1
- Date: Fri, 13 Mar 2026 09:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.204534
- Title: Vision-Language Based Expert Reporting for Painting Authentication and Defect Detection
- Title(参考訳): 視覚言語に基づく絵画認証と欠陥検出のためのエキスパートレポーティング
- Authors: Eman Ouda, Mohammed Salah, Arsenii O. Chulkov, Gianfranco Gargiulo, Gian Luca Tartaglia, Stefano Sfarra, Yusra Abdulrahman,
- Abstract要約: 完全自動熱画像ビジョン言語モデル(VLM)フレームワークについて述べる。
マルチモーダルAIRT分析とモダリティを意識したテキストレポーティングを組み合わせる。
異常の位置、熱的挙動、そしてもっともらしい物理的解釈を記述した構造化されたレポートを生成する。
- 参考スコア(独自算出の注目度): 0.6303112417588329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authenticity and condition assessment are central to conservation decision-making, yet interpretation and reporting of thermographic output remain largely bespoke and expert-dependent, complicating comparison across collections and limiting systematic integration into conservation documentation. Pulsed Active Infrared Thermography (AIRT) is sensitive to subsurface features such as material heterogeneity, voids, and past interventions; however, its broader adoption is constrained by artifact misinterpretation, inter-laboratory variability, and the absence of standardized, explainable reporting frameworks. Although multi-modal thermographic processing techniques are established, their integration with structured natural-language interpretation has not been explored in cultural heritage. A fully automated thermography-vision-language model (VLM) framework is presented. It combines multi-modal AIRT analysis with modality-aware textual reporting, without human intervention during inference. Thermal sequences are processed using Principal Component Thermography (PCT), Thermographic Signal Reconstruction (TSR), and Pulsed Phase Thermography (PPT), and the resulting anomaly masks are fused into a consensus segmentation that emphasizes regions supported by multiple thermal indicators while mitigating boundary artifacts. The fused evidence is provided to a VLM, which generates structured reports describing the location of the anomaly, thermal behavior, and plausible physical interpretations while explicitly acknowledging the uncertainty and diagnostic limitations. Evaluation on two marquetries demonstrates consistent anomaly detection and stable structured interpretations, indicating reproducibility and generalizability across samples.
- Abstract(参考訳): 認証と条件評価は、保存的意思決定の中心であるが、サーモグラフィー出力の解釈と報告は、主に目立ち、専門家に依存し、コレクション間の比較を複雑にし、保存的文書への体系的な統合を制限する。
Pulsed Active Infrared Thermography (AIRT) は、物質的不均一性、ヴォイド、過去の介入などの地下構造に敏感であるが、その広範囲な採用は、アーティファクトの誤解釈、実験間変動、標準化された説明可能な報告フレームワークの欠如によって制限されている。
マルチモーダルなサーモグラフィー処理技術が確立されているが、その構造的自然言語解釈との融合は文化遺産では研究されていない。
完全自動熱画像ビジョン言語モデル(VLM)フレームワークについて述べる。
マルチモーダルAIRT分析とモダリティを意識したテキストレポーティングを組み合わせる。
熱シーケンスは、主成分サーモグラフィ(PCT)、サーモグラフィ信号再構成(TSR)、パルス位相サーモグラフィ(PPT)を用いて処理され、結果として生じる異常マスクは、境界アーチファクトを緩和しながら複数の熱指標によって支えられる領域を強調するコンセンサスセグメンテーションに融合される。
融合したエビデンスをVLMに提供し、不確実性や診断の限界を明確に認識しつつ、異常、熱的挙動、および可視的物理的解釈の位置を記述した構造化されたレポートを生成する。
2つのマーケリーの評価は、一貫した異常検出と安定した構造的解釈を示し、サンプル間の再現性と一般化性を示している。
関連論文リスト
- Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - LLM-YOLOMS: Large Language Model-based Semantic Interpretation and Fault Diagnosis for Wind Turbine Components [5.383947139043873]
本研究では, YOLOMSと大規模言語モデル(LLM)を組み合わせて, インテリジェントな故障解析と診断を行う統合フレームワークを提案する。
特に, YOLOMSでは, マルチスケール検出とスライディング・ウインドウ・クリーピングを採用し, 断層特徴抽出の高度化を実現している。
このモジュールは、YOLOMS検出結果を定性的属性と量的属性の両方に富んだ構造化テキスト表現に変換する。
論文 参考訳(メタデータ) (2025-11-13T15:14:34Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。