論文の概要: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation
- arxiv url: http://arxiv.org/abs/2404.12606v1
- Date: Fri, 19 Apr 2024 03:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:15:12.946433
- Title: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation
- Title(参考訳): ELEV-VISION-SAM:低床高自動推定のための統合ビジョン言語と基礎モデル
- Authors: Yu-Hsuan Ho, Longxiang Li, Ali Mostafavi,
- Abstract要約: 本研究では,セグメンテーション基礎モデルであるセグメンテーションモデルと視覚言語モデルを統合し,LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。
提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。
- 参考スコア(独自算出の注目度): 1.2070884166650049
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Street view imagery, aided by advancements in image quality and accessibility, has emerged as a valuable resource for urban analytics research. Recent studies have explored its potential for estimating lowest floor elevation (LFE), offering a scalable alternative to traditional on-site measurements, crucial for assessing properties' flood risk and damage extent. While existing methods rely on object detection, the introduction of image segmentation has broadened street view images' utility for LFE estimation, although challenges still remain in segmentation quality and capability to distinguish front doors from other doors. To address these challenges in LFE estimation, this study integrates the Segment Anything model, a segmentation foundation model, with vision language models to conduct text-prompt image segmentation on street view images for LFE estimation. By evaluating various vision language models, integration methods, and text prompts, we identify the most suitable model for street view image analytics and LFE estimation tasks, thereby improving the availability of the current LFE estimation model based on image segmentation from 33% to 56% of properties. Remarkably, our proposed method significantly enhances the availability of LFE estimation to almost all properties in which the front door is visible in the street view image. Also the findings present the first baseline and comparison of various vision models of street view image-based LFE estimation. The model and findings not only contribute to advancing street view image segmentation for urban analytics but also provide a novel approach for image segmentation tasks for other civil engineering and infrastructure analytics tasks.
- Abstract(参考訳): 画像の質とアクセシビリティの向上によって支援されたストリートビューイメージは、都市分析研究の貴重な資源として現れてきた。
近年の研究では、低層標高(LFE)を推定する可能性について検討されており、従来のオンサイト計測に代わるスケーラブルな代替手段を提供し、洪水の危険度や被害範囲を評価するのに欠かせないものとなっている。
既存の手法では物体検出に頼っているが、画像分割の導入により、LFE推定のためのストリートビューイメージの有用性が拡大した。
LFE推定におけるこれらの課題に対処するために、セグメント化基礎モデルであるSegment Anythingモデルと視覚言語モデルを統合し、LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。
様々な視覚言語モデル、統合手法、テキストプロンプトを評価することにより、ストリートビュー画像分析やLFE推定タスクに最適なモデルを特定し、33%から56%のプロパティのイメージセグメンテーションに基づく現在のLFE推定モデルの可用性を向上させる。
注目に値することに,提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。
また,ストリートビュー画像を用いたLFE推定における視覚モデルの最初のベースラインと比較を行った。
このモデルと知見は、都市分析のためのストリートビューイメージセグメンテーションの進展に寄与するだけでなく、他の土木・インフラ分析タスクのための画像セグメンテーションタスクに新しいアプローチを提供する。
関連論文リスト
- Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery [25.420749355424377]
本稿では,ストリートビュー画像,ビルディング環境,インテリアにおけるChatGPT-4VとGemini Proの機能について検討する。
その結果,長さ測定,スタイル分析,質問応答,基本画像理解の習熟度が明らかになった。
全体として、この発見は基礎的なマルチモーダルインテリジェンスを示し、先進的な学際的応用を促進するためのFMの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-23T03:45:31Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。