論文の概要: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation
- arxiv url: http://arxiv.org/abs/2404.12606v1
- Date: Fri, 19 Apr 2024 03:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:15:12.946433
- Title: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation
- Title(参考訳): ELEV-VISION-SAM:低床高自動推定のための統合ビジョン言語と基礎モデル
- Authors: Yu-Hsuan Ho, Longxiang Li, Ali Mostafavi,
- Abstract要約: 本研究では,セグメンテーション基礎モデルであるセグメンテーションモデルと視覚言語モデルを統合し,LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。
提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。
- 参考スコア(独自算出の注目度): 1.2070884166650049
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Street view imagery, aided by advancements in image quality and accessibility, has emerged as a valuable resource for urban analytics research. Recent studies have explored its potential for estimating lowest floor elevation (LFE), offering a scalable alternative to traditional on-site measurements, crucial for assessing properties' flood risk and damage extent. While existing methods rely on object detection, the introduction of image segmentation has broadened street view images' utility for LFE estimation, although challenges still remain in segmentation quality and capability to distinguish front doors from other doors. To address these challenges in LFE estimation, this study integrates the Segment Anything model, a segmentation foundation model, with vision language models to conduct text-prompt image segmentation on street view images for LFE estimation. By evaluating various vision language models, integration methods, and text prompts, we identify the most suitable model for street view image analytics and LFE estimation tasks, thereby improving the availability of the current LFE estimation model based on image segmentation from 33% to 56% of properties. Remarkably, our proposed method significantly enhances the availability of LFE estimation to almost all properties in which the front door is visible in the street view image. Also the findings present the first baseline and comparison of various vision models of street view image-based LFE estimation. The model and findings not only contribute to advancing street view image segmentation for urban analytics but also provide a novel approach for image segmentation tasks for other civil engineering and infrastructure analytics tasks.
- Abstract(参考訳): 画像の質とアクセシビリティの向上によって支援されたストリートビューイメージは、都市分析研究の貴重な資源として現れてきた。
近年の研究では、低層標高(LFE)を推定する可能性について検討されており、従来のオンサイト計測に代わるスケーラブルな代替手段を提供し、洪水の危険度や被害範囲を評価するのに欠かせないものとなっている。
既存の手法では物体検出に頼っているが、画像分割の導入により、LFE推定のためのストリートビューイメージの有用性が拡大した。
LFE推定におけるこれらの課題に対処するために、セグメント化基礎モデルであるSegment Anythingモデルと視覚言語モデルを統合し、LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。
様々な視覚言語モデル、統合手法、テキストプロンプトを評価することにより、ストリートビュー画像分析やLFE推定タスクに最適なモデルを特定し、33%から56%のプロパティのイメージセグメンテーションに基づく現在のLFE推定モデルの可用性を向上させる。
注目に値することに,提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。
また,ストリートビュー画像を用いたLFE推定における視覚モデルの最初のベースラインと比較を行った。
このモデルと知見は、都市分析のためのストリートビューイメージセグメンテーションの進展に寄与するだけでなく、他の土木・インフラ分析タスクのための画像セグメンテーションタスクに新しいアプローチを提供する。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Revisiting Active Learning in the Era of Vision Foundation Models [0.0]
ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
本研究では,基礎モデルの頑健な表現が,アクティブラーニングにおける既存の知見にどのように挑戦するかを検討する。
論文 参考訳(メタデータ) (2024-01-25T22:50:39Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - How can we learn (more) from challenges? A statistical approach to
driving future algorithm development [1.0690055408831725]
本稿では,課題から学習し,腹腔鏡ビデオにおけるインスタンスセグメンテーションの具体的タスクをインスタンス化する統計フレームワークを提案する。
2,728枚の画像から51,542個のメタデータを抽出し,ロバスト・メディカル・インスツルメンツ・チャレンジ(ROBUST-MIS)の結果に適用した。
提案手法の開発は,従来の手法が失敗する傾向にあった画像の処理において,最先端の総合的性能と具体的な強みを有する深層学習モデルを得た。
論文 参考訳(メタデータ) (2021-06-17T08:12:37Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。