論文の概要: PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis
- arxiv url: http://arxiv.org/abs/2604.02804v1
- Date: Fri, 03 Apr 2026 07:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.36902
- Title: PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis
- Title(参考訳): PaveBench: Pavement Distress Perception と Interactive Vision-Language AnalysisのためのVersatileベンチマーク
- Authors: Dexiang Li, Zhenning Che, Haijun Zhang, Dongliang Zhou, Zhao Zhang, Yahong Han,
- Abstract要約: 本稿では,舗装難読感と対話型視覚言語分析のためのベンチマークであるPaveBenchを紹介する。
PaveBenchは、分類、オブジェクト検出、セマンティックセグメンテーション、視覚言語による質問応答の4つのコアタスクをサポートしている。
マルチモーダル側では、リアルタイム質問応答データセットPaveVQAを導入する。
- 参考スコア(独自算出の注目度): 35.75779621306803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pavement condition assessment is essential for road safety and maintenance. Existing research has made significant progress. However, most studies focus on conventional computer vision tasks such as classification, detection, and segmentation. In real-world applications, pavement inspection requires more than visual recognition. It also requires quantitative analysis, explanation, and interactive decision support. Current datasets are limited. They focus on unimodal perception. They lack support for multi-turn interaction and fact-grounded reasoning. They also do not connect perception with vision-language analysis. To address these limitations, we introduce PaveBench, a large-scale benchmark for pavement distress perception and interactive vision-language analysis on real-world highway inspection images. PaveBench supports four core tasks: classification, object detection, semantic segmentation, and vision-language question answering. It provides unified task definitions and evaluation protocols. On the visual side, PaveBench provides large-scale annotations and includes a curated hard-distractor subset for robustness evaluation. It contains a large collection of real-world pavement images. On the multimodal side, we introduce PaveVQA, a real-image question answering (QA) dataset that supports single-turn, multi-turn, and expert-corrected interactions. It covers recognition, localization, quantitative estimation, and maintenance reasoning. We evaluate several state-of-the-art methods and provide a detailed analysis. We also present a simple and effective agent-augmented visual question answering framework that integrates domain-specific models as tools alongside vision-language models. The dataset is available at: https://huggingface.co/datasets/MML-Group/PaveBench.
- Abstract(参考訳): 舗装条件の評価は道路の安全と維持に不可欠である。
既存の研究は大きな進歩を遂げた。
しかし、ほとんどの研究は、分類、検出、セグメンテーションといった従来のコンピュータビジョンタスクに焦点を当てている。
現実世界のアプリケーションでは、舗装検査は視覚的認識以上のものを必要とする。
定量的分析、説明、インタラクティブな意思決定支援も必要だ。
現在のデータセットは限られています。
単調な知覚に重点を置いている。
マルチターンインタラクションとファクトグラウンド推論をサポートしていない。
また、知覚と視覚言語分析を結びつけない。
これらの制約に対処するために,舗装感知覚と実世界の高速道路検査画像における対話型視覚言語解析のための大規模ベンチマークPaveBenchを紹介する。
PaveBenchは、分類、オブジェクト検出、セマンティックセグメンテーション、視覚言語による質問応答の4つのコアタスクをサポートしている。
統合されたタスク定義と評価プロトコルを提供する。
視覚面では、PaveBenchは大規模なアノテーションを提供し、堅牢性評価のための硬化したハードディトラクタサブセットを含んでいる。
現実世界の舗装画が多数収蔵されている。
マルチモーダル側では、シングルターン、マルチターン、エキスパート修正インタラクションをサポートするリアルタイム質問応答(QA)データセットであるPaveVQAを導入する。
認識、ローカライゼーション、定量的推定、メンテナンスの推論をカバーしている。
我々は、いくつかの最先端の手法を評価し、詳細な分析を行う。
また,視覚言語モデルと並行して,ドメイン固有モデルをツールとして統合した,シンプルで効果的な視覚的質問応答フレームワークを提案する。
データセットは以下の通りである。 https://huggingface.co/datasets/MML-Group/PaveBench。
関連論文リスト
- VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors [32.4515119002324]
VisChainBenchは、LVLM(Large Vision-Language Models)を厳格に評価するために設計されたベンチマークである。
3つの異なる領域(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクを含んでいる。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
論文 参考訳(メタデータ) (2025-12-07T09:48:10Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。