Fugu-MT 論文翻訳(概要): ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation

論文の概要: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation

arxiv url: http://arxiv.org/abs/2404.12606v1
Date: Fri, 19 Apr 2024 03:16:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 16:15:12.946433
Title: ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation
Title（参考訳）: ELEV-VISION-SAM:低床高自動推定のための統合ビジョン言語と基礎モデル
Authors: Yu-Hsuan Ho, Longxiang Li, Ali Mostafavi,
Abstract要約: 本研究では,セグメンテーション基礎モデルであるセグメンテーションモデルと視覚言語モデルを統合し,LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。
参考スコア（独自算出の注目度）: 1.2070884166650049
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Street view imagery, aided by advancements in image quality and accessibility, has emerged as a valuable resource for urban analytics research. Recent studies have explored its potential for estimating lowest floor elevation (LFE), offering a scalable alternative to traditional on-site measurements, crucial for assessing properties' flood risk and damage extent. While existing methods rely on object detection, the introduction of image segmentation has broadened street view images' utility for LFE estimation, although challenges still remain in segmentation quality and capability to distinguish front doors from other doors. To address these challenges in LFE estimation, this study integrates the Segment Anything model, a segmentation foundation model, with vision language models to conduct text-prompt image segmentation on street view images for LFE estimation. By evaluating various vision language models, integration methods, and text prompts, we identify the most suitable model for street view image analytics and LFE estimation tasks, thereby improving the availability of the current LFE estimation model based on image segmentation from 33% to 56% of properties. Remarkably, our proposed method significantly enhances the availability of LFE estimation to almost all properties in which the front door is visible in the street view image. Also the findings present the first baseline and comparison of various vision models of street view image-based LFE estimation. The model and findings not only contribute to advancing street view image segmentation for urban analytics but also provide a novel approach for image segmentation tasks for other civil engineering and infrastructure analytics tasks.
Abstract（参考訳）: 画像の質とアクセシビリティの向上によって支援されたストリートビューイメージは、都市分析研究の貴重な資源として現れてきた。近年の研究では、低層標高(LFE)を推定する可能性について検討されており、従来のオンサイト計測に代わるスケーラブルな代替手段を提供し、洪水の危険度や被害範囲を評価するのに欠かせないものとなっている。既存の手法では物体検出に頼っているが、画像分割の導入により、LFE推定のためのストリートビューイメージの有用性が拡大した。 LFE推定におけるこれらの課題に対処するために、セグメント化基礎モデルであるSegment Anythingモデルと視覚言語モデルを統合し、LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。様々な視覚言語モデル、統合手法、テキストプロンプトを評価することにより、ストリートビュー画像分析やLFE推定タスクに最適なモデルを特定し、33%から56%のプロパティのイメージセグメンテーションに基づく現在のLFE推定モデルの可用性を向上させる。注目に値することに,提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。また,ストリートビュー画像を用いたLFE推定における視覚モデルの最初のベースラインと比較を行った。このモデルと知見は、都市分析のためのストリートビューイメージセグメンテーションの進展に寄与するだけでなく、他の土木・インフラ分析タスクのための画像セグメンテーションタスクに新しいアプローチを提供する。

関連論文リスト

Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-06-17T16:07:58Z)
AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives [2.0293118701268154]
身近なAIシステムは、認識能力を高めて、地上車両やドローンの自律的なナビゲーションを変革している。 AetherVision-Benchは空中および地上の多角的セグメンテーションのベンチマークである。提案したベンチマークを用いて最先端のOVSSモデルを評価し,ゼロショット転送モデルの性能に影響を及ぼす要因について検討する。
論文参考訳（メタデータ） (2025-06-04T08:41:19Z)
Image-based Visibility Analysis Replacing Line-of-Sight Simulation: An Urban Landmark Perspective [2.3315115235829342]
この研究は、新しい画像ベースの可視性分析手法を導入することで、従来のLoSベースのアプローチに挑戦する。最初のケーススタディでは、大都市における6つの高いランドマーク構造物の視認性を検出するための信頼性を87%の精度で証明した。第二のケースでは、提案された可視グラフは、ロンドンのテムズ川に沿った複数のランドマークの接続形態と強度を明らかにする。
論文参考訳（メタデータ） (2025-05-17T03:41:45Z)
V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文参考訳（メタデータ） (2025-04-23T14:01:32Z)
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文参考訳（メタデータ） (2025-04-13T08:28:13Z)
OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery [4.33299613844962]
建築特性は空間データ基盤において重要な役割を担い、エネルギーシミュレーション、リスク評価、環境モデリングなどの応用を支援する。近年の進歩により、リモートセンシングとストリートレベルの画像を用いた客観的建物属性の抽出とタグ付けが可能になった。この研究は,クラウドソースデータを活用したオープンなフレームワークであるOpenFACADESを導入して,そのギャップを埋めるものである。
論文参考訳（メタデータ） (2025-04-01T08:20:13Z)
VLEER: Vision and Language Embeddings for Explainable Whole Slide Image Representation [3.695317701129061]
本稿では、WSI表現に視覚機能を活用するために設計された新しい方法であるVLEER(Vision and Language Embeddings for Explainable WSI Representation)を紹介する。 VLEERは、解釈可能性の独特な利点を提供し、結果に対する直接の人間可読な洞察を可能にする。
論文参考訳（メタデータ） (2025-02-28T08:49:03Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文参考訳（メタデータ） (2024-09-03T20:24:37Z)
Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery [25.420749355424377]
本稿では,ストリートビュー画像,ビルディング環境,インテリアにおけるChatGPT-4VとGemini Proの機能について検討する。その結果,長さ測定,スタイル分析,質問応答,基本画像理解の習熟度が明らかになった。全体として、この発見は基礎的なマルチモーダルインテリジェンスを示し、先進的な学際的応用を促進するためのFMの可能性を強調している。
論文参考訳（メタデータ） (2024-08-23T03:45:31Z)
Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文参考訳（メタデータ） (2024-07-22T17:54:41Z)
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
論文参考訳（メタデータ） (2024-07-22T12:26:08Z)
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文参考訳（メタデータ） (2024-04-23T14:53:15Z)
Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-03-18T18:08:44Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。 2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文参考訳（メタデータ） (2023-11-29T16:23:06Z)
PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文参考訳（メタデータ） (2021-10-31T04:43:05Z)
VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。新しいオブジェクト検出モデルを公開します。
論文参考訳（メタデータ） (2021-01-02T23:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。