論文の概要: A Hybrid Vision-Language Architecture for Automated Defect Reasoning and Report Generation in Industrial Inspection
- arxiv url: http://arxiv.org/abs/2605.26533v1
- Date: Tue, 26 May 2026 04:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.661881
- Title: A Hybrid Vision-Language Architecture for Automated Defect Reasoning and Report Generation in Industrial Inspection
- Title(参考訳): 自動欠陥推論のためのハイブリッドビジョンランゲージアーキテクチャと産業検査におけるレポート生成
- Authors: Malikussaid, Imad Gohar,
- Abstract要約: 本稿では,風力タービン羽根試験用分離・エッジ展開可能なパイプラインについて述べる。
The EyesはY26-x-obb指向のバウンディングボックスで、データセットネイティブの解像度で欠陥をローカライズする。
ブリッジは決定論的でパラメータフリーな符号化モジュールであり、検出された各バウンディングボックスをグリッド参照トークンにマップする。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated industrial inspection requires both precise defect localization and structured maintenance report generation; in current practice these tasks are handled separately, with linguistic interpretation left to human experts. This paper describes a decoupled, edge-deployable pipeline for wind turbine blade inspection built from three components that each handle a distinct sub-task. The Eyes a YOLO26-x-obb oriented bounding-box detector localizes defects at dataset-native resolution. The Bridge a deterministic, parameter-free encoding module maps each detected bounding box to grid-referenced spatial tokens embedded in a structured prompt. The Brain a 4-bit quantized Qwen-2.5-1.5B model adapted with Quantized Low-Rank Adaptation (QLoRA) on 947 synthetically generated maintenance reports generates a structured JSON report from that prompt. Retrieval-Augmented Fine-Tuning (RAFT) further grounds each recommendation in indexed maintenance procedures. Five ablation experiments, scored by BLEU-4, ROUGE-L, Hallucination Rate (HR), and an LLM-as-a-Judge rubric, compare the pipeline against a monolithic vision-language model (VLM) baseline and against partial configurations in which one component is removed. The complete system achieves BLEU-4 0.41, HR=4%, and Expert Score = 8.6/10 compared with 0.07, 65%, and 3.3/10 for the zero-shot VLM baseline. The QLoRA-adapted 1.5B model generates higher-quality reports than a 671B-parameter generalist API model given identical detection evidence, at 47 tokens per second on a single T4-class GPU. The results show that purpose-built decoupled architecture with a small domain-specific training corpus outperforms a generalist end-to-end model on this structured generation task.
- Abstract(参考訳): 自動化された産業検査は、正確な欠陥ローカライゼーションと構造化されたメンテナンスレポートの生成の両方を必要とする。
本稿では,3つの部品から構築した風力タービン羽根試験用分離・エッジ展開可能なパイプラインについて述べる。
The Eyes a YOLO26-x-obb-oriented bounding-box detectorは、データセットネイティブの解像度で欠陥をローカライズする。
ブリッジは決定論的でパラメータフリーな符号化モジュールであり、検出された各境界ボックスを、構造化プロンプトに埋め込まれたグリッド参照空間トークンにマップする。
Brain a 4-bit Quantized Qwen-2.5-1.5B model adapt with Quantized Low-Rank Adaptation (QLoRA) on 947 synthesis generated maintenance report は、そのプロンプトから構造化されたJSONレポートを生成する。
Retrieval-Augmented Fine-Tuning (RAFT)は、インデクシングされたメンテナンス手順において、各推奨事項をさらに根拠にしている。
BLEU-4, ROUGE-L, Hallucination Rate (HR), LLM-as-a-Judge rubric の5つのアブレーション実験は、パイプラインをモノリシック視覚言語モデル(VLM)ベースラインと、1つのコンポーネントを除去する部分構成と比較した。
完全なシステムはBLEU-4 0.41、HR=4%、Expert Score = 8.6/10を0.07、65%、VLMベースラインの3.3/10と比較する。
QLoRAに適応した1.5Bモデルは、同じ検出証拠を与えられた671BパラメータのジェネリストAPIモデルよりも高品質なレポートを生成し、1つのT4クラスのGPUで毎秒47トークンを生成する。
以上の結果から,ドメイン固有トレーニングコーパスを小型化した汎用デカップリングアーキテクチャは,この構成された生成タスクにおいて汎用的なエンド・ツー・エンド・エンド・モデルよりも優れていた。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback [2.626039639665796]
SWE-PRBenchは、AIコードレビューの品質を評価するための、人間による注釈付き根拠真理による350のプルリクエストのベンチマークである。
8つのフロンティアモデルでは、差分のみの設定で人間のフラッグされた問題の15~31%しか検出できない。
論文 参考訳(メタデータ) (2026-03-27T07:24:26Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。
本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文 参考訳(メタデータ) (2026-03-14T14:38:53Z) - Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits [43.59555184340113]
マルチツールチェーンをエンド・ツー・エンドのモデルと統一された検証後のステージで置き換える軽量なデータパイプラインを導入する。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデル textbfQwen-Verify をトレーニングし、効率的な故障検出と命令再カプセル化を行う。
このパイプラインは、さまざまな基本的な複雑な編集タスクにまたがる10Mスケールのデータセットである textbfUnicEdit-10M を生成する。
論文 参考訳(メタデータ) (2025-12-01T17:45:44Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。