Fugu-MT 論文翻訳(概要): Vision-Language Foundation Models for Comprehensive Automated Pavement Condition Assessment

論文の概要: Vision-Language Foundation Models for Comprehensive Automated Pavement Condition Assessment

arxiv url: http://arxiv.org/abs/2604.08212v1
Date: Thu, 09 Apr 2026 13:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.931157
Title: Vision-Language Foundation Models for Comprehensive Automated Pavement Condition Assessment
Title（参考訳）: 総合的自動舗装条件評価のための視覚言語基礎モデル
Authors: Blessing Agyei Kyem, Joshua Kofi Asamoah, Anthony Dontoh, Armstrong Aboah,
Abstract要約: 汎用視覚言語モデルは、正確な専門用語、構造化推論、工学標準の遵守を必要とする専門技術分野と競合する。本研究は,視覚言語モデルによる包括的舗装条件評価を実現するために,ドメイン固有命令チューニングが有効であるかどうかを論じる。
参考スコア（独自算出の注目度）: 6.830580384536778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General-purpose vision-language models demonstrate strong performance in everyday domains but struggle with specialized technical fields requiring precise terminology, structured reasoning, and adherence to engineering standards. This work addresses whether domain-specific instruction tuning can enable comprehensive pavement condition assessment through vision-language models. PaveInstruct, a dataset containing 278,889 image-instruction-response pairs spanning 32 task types, was created by unifying annotations from nine heterogeneous pavement datasets. PaveGPT, a pavement foundation model trained on this dataset, was evaluated against state-of-the-art vision-language models across perception, understanding, and reasoning tasks. Instruction tuning transformed model capabilities, achieving improvements exceeding 20% in spatial grounding, reasoning, and generation tasks while producing ASTM D6433-compliant outputs. These results enable transportation agencies to deploy unified conversational assessment tools that replace multiple specialized systems, simplifying workflows and reducing technical expertise requirements. The approach establishes a pathway for developing instruction-driven AI systems across infrastructure domains including bridge inspection, railway maintenance, and building condition assessment.
Abstract（参考訳）: 汎用視覚言語モデルは日常的な領域では強い性能を示すが、専門技術分野では正確な用語論、構造的推論、工学標準への固執を必要としている。本研究は,視覚言語モデルによる包括的舗装条件評価を実現するために,ドメイン固有命令チューニングが有効であるかどうかを論じる。 32のタスクタイプにまたがる278,889のイメージインストラクションとレスポンスのペアを含むデータセットであるPaveInstructは、9つの異種舗装データセットからアノテーションを統一することによって作成された。このデータセットでトレーニングされた舗装基礎モデルであるPaveGPTは、認識、理解、推論タスクにわたる最先端のビジョン言語モデルに対して評価された。インストラクションチューニングはモデル能力を変換し、ASTM D6433準拠の出力を生成しながら、空間接地、推論、生成タスクで20%以上の改善を実現した。これらの結果により、交通機関は複数の専門システムを置き換える統合された会話アセスメントツールをデプロイし、ワークフローを簡素化し、技術的専門知識の要求を低減できる。このアプローチは、ブリッジインスペクション、鉄道保守、建築条件評価を含むインフラストラクチャドメイン全体にわたって、命令駆動型AIシステムを開発するための経路を確立する。

関連論文リスト

Can Large Multimodal Models Inspect Buildings? A Hierarchical Benchmark for Structural Pathology Reasoning [7.005450139695288]
大規模マルチモーダルモデル(LMM)は、アクティブ推論へのパラダイムシフトを約束する。 textitDefectBenchは基本的な意味認識を超えてLMMを問うために設計された最初のベンチマークである。この作業は厳格なベンチマーク標準と高品質なオープンソースデータベースの両方を提供する。
論文参考訳（メタデータ） (2026-03-20T17:24:46Z)
Unleashing the Capabilities of Large Vision-Language Models for Intelligent Perception of Roadside Infrastructure [12.667510244197047]
汎用モデルは、しばしば必要なきめ細かい属性やドメイン・ルールを捉えるのに苦労する。本稿では,Large Vision Language Modelsをインテリジェントインフラストラクチャ分析のための特殊なエージェントに変換するドメイン適応フレームワークを提案する。本フレームワークは58.9mAPの検知性能と95.5%の属性認識精度を実現する。
論文参考訳（メタデータ） (2026-01-15T16:16:34Z)
A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文参考訳（メタデータ） (2025-10-27T17:57:33Z)
Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data [17.614395125762304]
認識と行動における接地言語は、人間や他のエージェントと対話できる位置にあるエージェントを構築する上で、言語を介して重要な課題である。高レベルタスク仕様から直接RLエージェントを訓練するためのエンドツーエンドのニューロシンボリックフレームワークであるGround-Compose-Reinforceを提案する。
論文参考訳（メタデータ） (2025-07-14T19:05:15Z)
OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation [65.15955645757705]
専門的な実行から戦略的計画を切り離す階層的なマルチエージェントフレームワークであるWorkforceを紹介します。推論中、Workforceはワーカーエージェントの追加や修正によって新しいドメインにシームレスに適応する。トレーニングには、ドメイン間の一般化を改善する最適化されたワークフォース学習(OWL)を導入する。
論文参考訳（メタデータ） (2025-05-29T17:51:58Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Terrain characterisation for online adaptability of automated sonar processing: Lessons learnt from operationally applying ATR to sidescan sonar in MCM applications [0.0]
本稿では,AUV(Autonomous Underwater Vehicles)ミッションにおける説明性向上のための2つのオンライン海底特性評価手法を提案する。どちらの手法も、地形の複雑さに対する人間の理解に関連する地形の特徴を抽出するために、教師なしの機械学習アプローチに依存している。最初の技術は、ATRアルゴリズムの性能に基づいて、定量的でアプリケーション駆動の地形特性指標を提供する。第2の方法は,主題の専門知識を取り入れ,シナリオ依存型主観的地形特徴化を支援するための文脈化と説明可能性を実現する方法である。
論文参考訳（メタデータ） (2024-04-29T12:48:42Z)
Towards an Approach to Pattern-based Domain-Specific Requirements Engineering [0.0]
本稿では,機能要件と性能要件の仕様化のためのパターンベースドメイン固有要求工学手法を提案する。このアプローチは、アカデミックと産業のコラボレーションから生まれ、ドメイン知識を分析可能なアプローチを策定する最初の試みです。まず、パターンベースのドメイン固有要件エンジニアリングのソリューションと、品質保証技術へのその模範的な統合を提示します。
論文参考訳（メタデータ） (2024-04-26T11:38:55Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。 10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2022-05-21T00:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。