論文の概要: Quantized Vision-Language Models for Damage Assessment: A Comparative Study of LLaVA-1.5-7B Quantization Levels
- arxiv url: http://arxiv.org/abs/2603.26770v1
- Date: Tue, 24 Mar 2026 12:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.590677
- Title: Quantized Vision-Language Models for Damage Assessment: A Comparative Study of LLaVA-1.5-7B Quantization Levels
- Title(参考訳): 損傷評価のための量子化ビジョンランゲージモデル:LLaVA-1.5-7B量子化レベルの比較検討
- Authors: Takato Yasuno,
- Abstract要約: 本稿では,自動橋梁損傷評価のためのVLM(Quantized Vision-Language Models)の総合的研究について述べる。
我々は、説明品質、推論速度、そしてリソース要求の間のトレードオフに焦点を当てます。
視覚的損傷解析,構造化抽出,ルールに基づく優先スコアリングのためのLLaVA-1.5-7Bを組み合わせたエンドツーエンドパイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridge infrastructure inspection is a critical but labor-intensive task requiring expert assessment of structural damage such as rebar exposure, cracking, and corrosion. This paper presents a comprehensive study of quantized Vision-Language Models (VLMs) for automated bridge damage assessment, focusing on the trade-offs between description quality, inference speed, and resource requirements. We develop an end-to-end pipeline combining LLaVA-1.5-7B for visual damage analysis, structured JSON extraction, and rule-based priority scoring. To enable deployment on consumer-grade GPUs, we conduct a systematic comparison of three quantization levels: Q4_K_M, Q5_K_M, and Q8\_0 across 254 rebar exposure images. We introduce a 5-point quality evaluation framework assessing damage type recognition, severity classification. Our results demonstrate that Q5_K_M achieves the optimal balance: quality score 3.18$\pm$1.35/5.0, inference time 5.67s/image, and 0.56 quality/sec efficiency -- 8.5% higher quality than Q4_K_M with only 4.5% speed reduction, while matching Q8_0's quality with 25% faster inference. Statistical analysis reveals Q5_K_M exhibits the weakest text-quality correlation (-0.148), indicating consistent performance regardless of description length.
- Abstract(参考訳): 橋梁のインフラ検査は、鉄筋の露出、ひび割れ、腐食などの構造的損傷を専門的に評価する必要があるが、労働集約的な作業である。
本稿では,自動橋梁損傷評価のための量化ビジョン・ランゲージモデル(VLM)について,記述品質,推論速度,資源要件のトレードオフに着目した総合的研究を行った。
LLaVA-1.5-7Bによる視覚的損傷解析,構造化JSON抽出,ルールに基づく優先スコアリングのためのエンドツーエンドパイプラインを開発した。
コンシューマグレードのGPUへの展開を実現するため,254枚の残響画像に対して,Q4_K_M,Q5_K_M,Q8\_0の3つの量子化レベルを体系的に比較した。
損傷型認識,重度分類を評価する5点品質評価フレームワークを提案する。
その結果,品質スコア3.18$\pm$1.35/5.0,推論時間5.67s/image,0.56 品質/秒効率0.5%,速度低下4.5%,Q8_0 の品質を25%高速化した。
統計的解析により、Q5_K_Mが最も弱いテキスト品質相関(-0.148)を示し、記述長に関係なく一貫した性能を示す。
関連論文リスト
- BiRQA: Bidirectional Robust Quality Assessment for Images [49.74447451098852]
フル参照画像品質評価(FR IQA)は、画像圧縮、復元、生成モデリングにおいて重要である。
本稿では、双方向の多スケールピラミッド内で4つの高速補完特徴を処理するコンパクトFR IQA計量モデルであるBiRQAを提案する。
5つのパブリックFR IQAベンチマークでは、BiRQAは以前のSOTAモデルよりも3倍高速で動作しながら、以前の状態(SOTA)より優れ、あるいは一致している。
論文 参考訳(メタデータ) (2026-02-23T20:52:56Z) - Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images [0.1265345507370037]
網膜画像品質評価(RIQA)は、眼疾患のコンピュータ支援診断を支援する。
ほとんどのツールは、画像の全体的な品質のみを分類するが、再キャプチャーをガイドするための取得欠陥は示さない。
本稿では,マルチタスクフレームワーク内で,手動による品質ラベルと品質詳細の擬似ラベルを併用した半教師付きハイブリッド学習手法を提案する。
論文 参考訳(メタデータ) (2025-11-17T13:17:42Z) - PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization [12.993619998545633]
PreResQ-R1はPreference-Response Disentangled Reinforcement Learningフレームワークである。
1つの推論駆動最適化スキームにおいて絶対スコア回帰と相対ランク一貫性を統一する。
10 IQA と 5 VQA のベンチマークにおいて、SRCC と PLCC のメトリクスで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-11-07T16:19:50Z) - Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models [60.356842878501254]
マシンビジョンシステム(MVS)は、視覚の悪条件下での性能劣化に対して本質的に脆弱である。
画像劣化がMVS性能に与える影響を定量的に評価するマシン中心画像品質評価(MIQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:07:24Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [48.99485386990197]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。