論文の概要: Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
- arxiv url: http://arxiv.org/abs/2408.00932v1
- Date: Thu, 1 Aug 2024 21:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:56:17.905768
- Title: Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
- Title(参考訳): 視覚言語モデルによる建築環境のゼロショットアノテーション化に向けて(ビジョンペーパー)
- Authors: Bin Han, Yiwei Yang, Anat Caspi, Bill Howe,
- Abstract要約: 適切な都市交通アプリケーションは、構築された環境の高忠実度デジタル表現を必要とする。
衛星画像から多様な都市特徴を注釈付けするためのメカニズムとして視覚言語モデルを考える。
我々は、最先端のビジョン言語モデルとプロンプト戦略の変種を組み合わせた概念実証を実証する。
- 参考スコア(独自算出の注目度): 8.071443524030302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Equitable urban transportation applications require high-fidelity digital representations of the built environment: not just streets and sidewalks, but bike lanes, marked and unmarked crossings, curb ramps and cuts, obstructions, traffic signals, signage, street markings, potholes, and more. Direct inspections and manual annotations are prohibitively expensive at scale. Conventional machine learning methods require substantial annotated training data for adequate performance. In this paper, we consider vision language models as a mechanism for annotating diverse urban features from satellite images, reducing the dependence on human annotation to produce large training sets. While these models have achieved impressive results in describing common objects in images captured from a human perspective, their training sets are less likely to include strong signals for esoteric features in the built environment, and their performance in these settings is therefore unclear. We demonstrate proof-of-concept combining a state-of-the-art vision language model and variants of a prompting strategy that asks the model to consider segmented elements independently of the original image. Experiments on two urban features -- stop lines and raised tables -- show that while direct zero-shot prompting correctly annotates nearly zero images, the pre-segmentation strategies can annotate images with near 40% intersection-over-union accuracy. We describe how these results inform a new research agenda in automatic annotation of the built environment to improve equity, accessibility, and safety at broad scale and in diverse environments.
- Abstract(参考訳): 道路や歩道だけでなく、自転車レーン、目印のない横断歩道、ランプとカットの遮断、障害物、交通信号、標識、街路標識、穴など、建設環境の忠実度の高いデジタル表現が必要である。
直接検査や手動のアノテーションは、大規模では違法に高価である。
従来の機械学習手法では、十分な性能を得るために、かなりのアノテートされたトレーニングデータが必要である。
本稿では,視覚言語モデルについて,衛星画像から多種多様な都市特徴をアノテートするメカニズムとして,人間のアノテーションへの依存を低減し,大規模なトレーニングセットを生成するメカニズムとして考察する。
これらのモデルは、人間の視点で捉えた画像に共通のオブジェクトを記述するという印象的な結果を得たが、それらのトレーニングセットは、構築された環境に密な特徴を示す強力なシグナルを含まないため、これらの設定でのそれらのパフォーマンスは不明確である。
本稿では,最先端のビジョン言語モデルと,原画像と独立してセグメント要素を考慮させるプロンプト戦略の変種を組み合わせた概念実証を行う。
ストップラインとアップテーブルという2つの都市特性の実験は、直接ゼロショットプロンプトがほぼゼロの画像に正しくアノテートする一方で、プレセグメンテーション戦略は、画像にアノテートを約40%の精度でアノテートすることができることを示している。
本報告では, 建設環境の自動アノテーションにおける新たな研究課題として, 広範囲及び多様な環境において, 株式, アクセシビリティ, 安全性を向上する方法について述べる。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - AIDOVECL: AI-generated Dataset of Outpainted Vehicles for Eye-level Classification and Localization [0.0]
この研究は、注釈付きデータ不足の問題に対処するために、アウトペイントを活用する新しいアプローチを導入している。
この技術は、自動運転、都市計画、環境モニタリングにおいて特に困難な課題に応用する。
塗装された車両による増強は、全体のパフォーマンス指標を最大8%改善し、未表現クラスの予測を最大20%向上させる。
論文 参考訳(メタデータ) (2024-10-31T16:46:23Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - StreetSurfaceVis: a dataset of crowdsourced street-level imagery annotated by road surface type and quality [41.94295877935867]
ドイツから9,122枚のストリートレベルの画像からなる新しいデータセットであるStreetSurfaceVisを紹介した。
多様な画像ソース間で高い精度を維持する頑健なモデルを実現することを目的としている。
論文 参考訳(メタデータ) (2024-07-31T08:59:33Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。
本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。
得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-16T04:59:46Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Road images augmentation with synthetic traffic signs using neural
networks [3.330229314824913]
まれな交通標識の検出と分類のタスクを検討します。
合成トレーニングデータを用いて、その課題の解決を目指します。
本稿では,合成標識を外観に整合させる3つの手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T08:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。