論文の概要: Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.22868v1
- Date: Sun, 26 Oct 2025 23:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.401911
- Title: Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models
- Title(参考訳): 未知視:知識付加型視覚言語モデルを用いた風車ブレードのゼロショット検査に向けて
- Authors: Yang Zhang, Qianyu Zhou, Farhad Imani, Jiong Tang,
- Abstract要約: 本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
- 参考スコア(独自算出の注目度): 10.230967860299504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wind turbine blades operate in harsh environments, making timely damage detection essential for preventing failures and optimizing maintenance. Drone-based inspection and deep learning are promising, but typically depend on large, labeled datasets, which limit their ability to detect rare or evolving damage types. To address this, we propose a zero-shot-oriented inspection framework that integrates Retrieval-Augmented Generation (RAG) with Vision-Language Models (VLM). A multimodal knowledge base is constructed, comprising technical documentation, representative reference images, and domain-specific guidelines. A hybrid text-image retriever with keyword-aware reranking assembles the most relevant context to condition the VLM at inference, injecting domain knowledge without task-specific training. We evaluate the framework on 30 labeled blade images covering diverse damage categories. Although the dataset is small due to the difficulty of acquiring verified blade imagery, it covers multiple representative defect types. On this test set, the RAG-grounded VLM correctly classified all samples, whereas the same VLM without retrieval performed worse in both accuracy and precision. We further compare against open-vocabulary baselines and incorporate uncertainty Clopper-Pearson confidence intervals to account for the small-sample setting. Ablation studies indicate that the key advantage of the framework lies in explainability and generalizability: retrieved references ground the reasoning process and enable the detection of previously unseen defects by leveraging domain knowledge rather than relying solely on visual cues. This research contributes a data-efficient solution for industrial inspection that reduces dependence on extensive labeled datasets.
- Abstract(参考訳): 風力タービンブレードは厳しい環境で作動し、故障の防止とメンテナンスの最適化に時間的な損傷検出が不可欠である。
ドローンによる検査とディープラーニングは有望だが、通常はラベル付きの大きなデータセットに依存している。
そこで本稿では,視覚言語モデル(VLM)とRAG(Retrieval-Augmented Generation)を統合したゼロショット指向検査フレームワークを提案する。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
キーワードを意識したリグレード付きハイブリッドテキスト画像検索器は、VLMを推論時に条件付けし、タスク固有のトレーニングなしでドメイン知識を注入する最も関連性の高いコンテキストを組み立てる。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
検証されたブレード画像を取得するのが難しいためデータセットは小さいが、複数の代表的欠陥タイプをカバーしている。
このテストセットでは、RAGを接地したVLMが全てのサンプルを正しく分類するのに対して、検索なしの同じVLMは精度と精度の両方で悪化した。
さらに,開語彙ベースラインと比較し,小サンプル設定を考慮した不確実性Cropper-Pearson信頼区間を取り入れた。
検索された参照は推論プロセスの基礎を成し、視覚的な手がかりにのみ依存するのではなく、ドメイン知識を活用することによって、これまで見つからなかった欠陥の検出を可能にする。
本研究は、広範囲なラベル付きデータセットへの依存を減らす産業検査のためのデータ効率の高いソリューションに寄与する。
関連論文リスト
- RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection [32.48195434906769]
RAIDXはRetrieval-Augmented Generation (RAG)とGroup Relative Policy Optimization (GRPO)を統合した新しいディープフェイク検出フレームワークである。
RAGは、検出精度を向上させるために外部知識を取り入れ、GRPOを使用して、詳細なテキスト説明とサリエンシマップを自律的に生成する。
複数のベンチマークの実験では、RAIDXが実または偽の識別に有効であることを示し、テキスト記述と正当性マップの両方に解釈可能な有理性を提供する。
論文 参考訳(メタデータ) (2025-08-06T15:08:16Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。