論文の概要: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
- arxiv url: http://arxiv.org/abs/2506.14670v1
- Date: Tue, 17 Jun 2025 16:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.560841
- Title: StreetLens: Enabling Human-Centered AI Agents for Neighborhood Assessment from Street View Imagery
- Title(参考訳): StreetLens:ストリートビューの画像から近隣のアセスメントのための人間中心AIエージェントの開発
- Authors: Jina Kim, Leeje Jang, Yao-Yi Chiang, Guanyu Wang, Michelle Pasco,
- Abstract要約: 我々は、近隣研究のための研究者構成可能なAIシステムであるStreetLensを紹介する。
StreetLensは、スケーラブルな近隣環境アセスメントのためのビジョン言語モデルに、関連する社会科学の専門知識を組み込んでいる。
客観的特徴から主観的知覚まで幅広い意味的アノテーションを生成する。
- 参考スコア(独自算出の注目度): 5.987690246378683
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditionally, neighborhood studies have employed interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. While these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision-language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this demo paper, we present StreetLens, a human-centered, researcher-configurable workflow that embeds relevant social science expertise in a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by grounding the analysis in questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM's role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed across diverse settings. We provide a Google Colab notebook to make StreetLens accessible and extensible for researchers working with public or custom SVI datasets. StreetLens represents a shift toward flexible, agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies.
- Abstract(参考訳): 伝統的に、地域の研究では、物理的障害、腐敗、通りの安全、社会文化のシンボルを含む環境特性を識別し、発達と健康への影響を調べるための詳細なプロトコルによって導かれるインタビュー、調査、手動画像アノテーションが採用されてきた。
これらの手法は豊富な洞察を与えるが、時間を要するため、専門家の介入を必要とする。
視覚言語モデル(VLM)を含む最近の技術進歩は、このプロセスの一部を自動化し始めているが、既存の取り組みは、しばしばアドホックで、研究設計や地理的文脈における適応性に欠ける。
本稿では、人間中心で研究者が構成可能なワークフローであるStreetLensについて紹介する。
そこでStreetLensは、既存の面接プロトコルから得られた質問を分析し、関連するストリートビューイメージ(SVI)を検索し、客観的特徴(車数など)から主観的知覚(画像中の無秩序感など)まで幅広い意味的アノテーションを生成することによって、訓練された人間のコーダの過程を模倣する。
研究者がドメインインフォームドプロンプトを通じてVLMの役割を定義できるようにすることで、StreetLensは分析プロセスのコアにドメイン知識を配置する。
また、前回の調査データの統合をサポートし、堅牢性を高め、さまざまな設定で評価される特徴の範囲を広げる。
公開あるいはカスタムのSVIデータセットを扱う研究者のために、StreetLensがアクセス可能で拡張可能なGoogle Colabノートを提供しています。
StreetLensは、フレキシブルでエージェント的なAIシステムへのシフトであり、研究者と密接に協力して近隣の研究を加速し拡大する。
関連論文リスト
- Self-Supervised Learning for Image Segmentation: A Comprehensive Survey [8.139668811376822]
自己教師付き学習(SSL)は、いくつかの実用的な下流コンピュータビジョン問題を解決するための強力な機械学習(ML)パラダイムとなっている。
この調査は、最近の150以上のイメージセグメンテーション記事、特にSSLについて徹底的に調査している。
これは、プリテキストタスク、ダウンストリームタスク、イメージセグメンテーション研究によく使われるベンチマークデータセットの実用的な分類を提供する。
論文 参考訳(メタデータ) (2025-05-19T17:47:32Z) - VizCV: AI-assisted visualization of researchers' publications tracks [7.233541652625401]
VizCVは、新しいWebベースのエンドツーエンドのビジュアル分析フレームワークである。
AI支援分析を取り入れ、キャリア進化の自動報告をサポートする。
論文 参考訳(メタデータ) (2025-05-13T15:47:59Z) - Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels [0.0]
都市環境は公共空間における人間の活動を支援するのに不可欠である。
ストリートビュー画像(SVI)や大規模言語モデル(MLLM)といったビッグデータの出現は、研究者や実践者が都市環境を調査し、測定し、評価する方法を変えつつある。
本研究では,都市デザインの質を評価する上で,専門家知識の統合がMLLMの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-04-28T09:41:17Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - Vital Insight: Assisting Experts' Context-Driven Sensemaking of Multi-modal Personal Tracking Data Using Visualization and Human-In-The-Loop LLM Agents [29.73055078727462]
Vital Insightは、スマートフォンやウェアラブルからのマルチモーダル受動的センシングデータの人間のループ推論(センスメイキング)と可視化を可能にする、新しいLLM支援のプロトタイプシステムである。
我々は、専門家のそれとのインタラクションを観察し、専門家が直接データ表現とAIをサポートする推論の間をどう移動するかを説明する専門家のセンスメイキングモデルを開発する。
論文 参考訳(メタデータ) (2024-10-18T21:56:35Z) - A Survey of Stance Detection on Social Media: New Directions and Perspectives [50.27382951812502]
姿勢検出は 感情コンピューティングにおける 重要なサブフィールドとして現れました
近年は、効果的な姿勢検出手法の開発に対する研究の関心が高まっている。
本稿では,ソーシャルメディア上での姿勢検出手法に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-09-24T03:06:25Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本稿では,LfV(Learning from Videos)の新たな分野について概説する。
LfVは、従来のロボットデータを大規模なインターネットビデオデータで強化することで、ロボットデータのボトルネックに対処することを目指している。
本稿では、大規模インターネットビデオから知識を抽出し、LfVにおける重要な課題に対処し、映像データを用いて下流ロボットと強化学習を促進するための現在の手法についてレビューする。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Automatic Gaze Analysis: A Survey of DeepLearning based Approaches [61.32686939754183]
視線分析はコンピュータビジョンとヒューマン・コンピュータ・インタラクションの分野で重要な研究課題である。
制約のない環境で視線方向を解釈するための重要な手がかりは何か、いくつかのオープンな質問がある。
我々は、これらの基本的な疑問に光を当てるために、様々な視線分析タスクと応用の進捗を概観する。
論文 参考訳(メタデータ) (2021-08-12T00:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。