論文の概要: Fine-Tuning Vision-Language Models for Understanding Current Damage and Scoring Priority with Quality Guard Agent
- arxiv url: http://arxiv.org/abs/2605.27452v1
- Date: Sun, 24 May 2026 21:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.289123
- Title: Fine-Tuning Vision-Language Models for Understanding Current Damage and Scoring Priority with Quality Guard Agent
- Title(参考訳): 品質ガードエージェントによる電流損傷とスコーシング優先性理解のための微調整型ビジョンランゲージモデル
- Authors: Takato Yasuno,
- Abstract要約: 日本の橋梁検査では5年ごとに視力検査が義務付けられている。
異なるエンジニアによって割り当てられた定性的な損傷評価(レベルa-e)は、レーダー間の大きなばらつきを示す。
本稿では,橋梁損傷理解と修復優先スコアの自動化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridge inspection in Japan requires mandatory visual assessments every five years, yet qualitative damage ratings (levels a-e) assigned by different engineers exhibit significant inter-rater variability -- a critical barrier to consistent infrastructure management. The aging of skilled engineers further threatens inspection capacity. This paper presents a methodology for automating bridge damage understanding and repair priority scoring using fine-tuned Vision-Language Models (VLMs). We fine-tune LLaVA-1.5-7B with QLoRA on up to 4,000 paired bridge damage images and inspection text records, then evaluate on a fixed test set of 800 images. The model outputs natural language descriptions identifying structural members and damage patterns, from which a rule-based scoring engine calculates a five-level repair priority index. A progressive training study (1k/2k/3k/4k samples) reveals that 2k training samples achieve near-optimal validation loss in only 2.9 hours of training; beyond 2k, validation loss improves by no more than 0.2% per doubling of training samples, exhibiting clear diminishing returns. Furthermore, semantic similarity on the held-out test set peaks at 3k (0.6909) and degrades at 4k (0.6739), indicating that quality-curated mid-scale data outperforms larger but noisier corpora. Inference optimization combining torch.compile() and batch processing (batch_size=8) achieves 10.06 seconds per image -- a 70.2% reduction over the unoptimized baseline. Our approach contributes to data governance in bridge inspection, reduces inter-rater variability, and provides AI-assisted triage to augment expert engineers in inspection workflows. Furthermore, we introduce a two-stage Quality Guard using a fine-tuned Swallow-8B SLM to reject low-quality VLM outputs before priority scoring, preventing spurious scores from damaged or unrecognised images.
- Abstract(参考訳): 日本の橋梁検査では、5年ごとに視覚的評価が義務付けられているが、異なるエンジニアが割り当てる定性的被害評価(レベルa-e)は、一貫したインフラ管理にとって重要な障壁である、レーダー間の大きなばらつきを示している。
熟練技術者の高齢化により、検査能力はさらに脅かされる。
本稿では,微調整型視覚言語モデル(VLM)を用いた橋梁損傷理解と修復優先スコアの自動化手法を提案する。
最大4,000対の橋梁損傷画像と検査テキスト記録にQLoRAを用いてLLaVA-1.5-7Bを微調整し,800枚の画像の固定テストセットで評価した。
このモデルは、構造部材と損傷パターンを識別する自然言語記述を出力し、ルールベースのスコアリングエンジンが5段階の修理優先指数を算出する。
プログレッシブトレーニングスタディ(1k/2k/3k/4kサンプル)は、2kのトレーニングサンプルが2.9時間のトレーニングでほぼ最適の検証損失を達成していることを示した。
さらに、保持されたテストセットのセマンティックな類似性は、ピークが3k (0.6909)、デグレードが4k (0.6739)であり、品質の高い中規模データがより大きいがノイズの多いコーパスより優れていることを示している。
torch.compile()とバッチ処理(batch_size=8)を組み合わせた推論最適化は、1イメージあたり10.06秒 -- 最適化されていないベースラインを70.2%削減する。
当社のアプローチは、ブリッジインスペクションにおけるデータガバナンスに寄与し、ラッター間のばらつきを低減し、インスペクションワークフローにおいて専門家エンジニアを増員するためのAI支援トリアージを提供する。
さらに、微調整スワロー8B SLMを用いた2段階品質ガードを導入し、優先度スコアの前に低品質のVLM出力を拒否し、スプリアススコアが損傷または未認識画像から防止する。
関連論文リスト
- Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training [5.976336341654394]
低ビット浮動小数点フォーマットによる量子化対応トレーニング(QAT)は、効率的なLCMデプロイメントを実現するが、標準的なトレーニングメトリクスには見えない微妙な障害モードを導入する。
遅延スケーリング(DTS)によるOpenPangu-Embedded-1B用HiF8 W8A8 QATの系統的研究について述べる。
我々は、2つの障害モードを同定し、分離する: (i)max saturation、遅延スケール、フォワードパスクリッピングによる知識に敏感な表現を推定する; (ii)カタストロフィックな忘れ、そして、アグレッシブラーニングレートは、量子化とは無関係に事前訓練されたコモンセンス知識を上書きする。
論文 参考訳(メタデータ) (2026-05-25T09:19:57Z) - Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Quantized Vision-Language Models for Damage Assessment: A Comparative Study of LLaVA-1.5-7B Quantization Levels [0.0]
本稿では,自動橋梁損傷評価のためのVLM(Quantized Vision-Language Models)の総合的研究について述べる。
我々は、説明品質、推論速度、そしてリソース要求の間のトレードオフに焦点を当てます。
視覚的損傷解析,構造化抽出,ルールに基づく優先スコアリングのためのLLaVA-1.5-7Bを組み合わせたエンドツーエンドパイプラインを開発した。
論文 参考訳(メタデータ) (2026-03-24T12:33:18Z) - Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models [3.72557681438567]
ドローンの画像を定期的な検査に頼っている企業が増えているが、正確な欠陥型分類器の訓練は依然として難しい。
トレーニング不要な画像生成装置として,既製のマルチモーダル大言語モデル(MLLM)を用いて,このデータスカシティ設定に対処する。
現実的な低トレーニングデータ構造を持つ公開データセットを用いたセラミック絶縁体欠陥型分類の評価を行った。
論文 参考訳(メタデータ) (2026-03-09T08:06:27Z) - Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing [1.5362004217750165]
コロニー形成ユニット(CFU)検出は医薬品製造において重要である。
そこで我々は,ディープラーニング(DL)と視覚言語モデル(VLM)を組み合わせたマルチエージェントフレームワークを開発した。
最初のDLベースの自動化は、ワクチン製造現場で人間の検証を50%削減した。
論文 参考訳(メタデータ) (2026-02-24T04:48:05Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - SPot-the-Difference Self-Supervised Pre-training for Anomaly Detection
and Segmentation [17.954335118363964]
我々は,高解像度カラー画像10,821枚(正常9,621枚,異常1200枚)からなるVisual Anomaly (VisA) データセットを3つの領域で12個のオブジェクトに対してリリースした。
本研究では,SPD(SPot-the-Difference)という自己教師付きフレームワークを提案する。
VisAとMVTec-ADデータセットの実験では、SPDはコントラスト付き事前トレーニングベースラインや教師付き事前トレーニングさえも一貫して改善している。
論文 参考訳(メタデータ) (2022-07-28T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。