論文の概要: MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes
- arxiv url: http://arxiv.org/abs/2509.13484v1
- Date: Tue, 16 Sep 2025 19:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.628321
- Title: MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes
- Title(参考訳): MINGLE:都市景観における複雑な領域検出のためのVLM
- Authors: Liu Liu, Alexandra Kudaeva, Marco Cipriano, Fatimeh Al Ghannam, Freya Tan, Gerard de Melo, Andres Sevtsuk,
- Abstract要約: 公共空間におけるグループレベルの社会的相互作用は都市計画に不可欠である。
対人関係によって定義された視覚領域の推測と空間的接地を必要とする社会集団領域検出タスクを導入する。
本稿では,人間検出と深度推定を統合したモジュール型3段階パイプラインであるMINGLEと,ソーシャルアフィリエイトを相互に分類するVLMベースの推論と,ソーシャルに連結したグループを局所化する軽量な空間アグリゲーションアルゴリズムを提案する。
そこで本稿では,個人と社会的に相互作用するグループの両方に対して,境界ボックスとラベルを付加した100万の街路ビュー画像のデータセットを提案する。
- 参考スコア(独自算出の注目度): 49.89767522399176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding group-level social interactions in public spaces is crucial for urban planning, informing the design of socially vibrant and inclusive environments. Detecting such interactions from images involves interpreting subtle visual cues such as relations, proximity, and co-movement - semantically complex signals that go beyond traditional object detection. To address this challenge, we introduce a social group region detection task, which requires inferring and spatially grounding visual regions defined by abstract interpersonal relations. We propose MINGLE (Modeling INterpersonal Group-Level Engagement), a modular three-stage pipeline that integrates: (1) off-the-shelf human detection and depth estimation, (2) VLM-based reasoning to classify pairwise social affiliation, and (3) a lightweight spatial aggregation algorithm to localize socially connected groups. To support this task and encourage future research, we present a new dataset of 100K urban street-view images annotated with bounding boxes and labels for both individuals and socially interacting groups. The annotations combine human-created labels and outputs from the MINGLE pipeline, ensuring semantic richness and broad coverage of real-world scenarios.
- Abstract(参考訳): 公共空間におけるグループレベルの社会的相互作用を理解することは都市計画に不可欠であり、社会的に活気があり包摂的な環境の設計を伝える。
このような相互作用を画像から検出するには、関係性、近接性、コムーブメントなどの微妙な視覚的手がかりを解釈する必要がある。
この課題に対処するために、抽象的な対人関係によって定義された視覚領域を推論し空間的にグラウンド化するソーシャルグループ領域検出タスクを導入する。
本研究では,(1)既製の人間検出・深度推定,(2)VLMに基づくソーシャル・アフィリエイトの分類,(3)ソーシャル・コネクテッド・グループをローカライズするための軽量な空間的アグリゲーション・アルゴリズムを提案する。
この課題を支援し,今後の研究を促進するために,個人と社会的に相互作用するグループの両方に対して,境界ボックスとラベルを付加した100万の街路ビュー画像のデータセットを提案する。
このアノテーションは、人間が作ったラベルとMINGLEパイプラインからの出力を組み合わせて、セマンティック・リッチネスと現実世界のシナリオの広範なカバレッジを保証する。
関連論文リスト
- What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset [6.6946566008924036]
本稿では,高レベルのアクションセマンティクスと微粒な身体部分接触領域を同時に予測する新しい視覚タスクを提案する。
本稿では,654のアクション,80のオブジェクトカテゴリ,17の身体部分を含む13,979のイメージを含む包括的データセットであるPaIR(Part-Aware Interaction Representation)を紹介する。
論文 参考訳(メタデータ) (2025-08-13T02:06:33Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - Monitoring Social-distance in Wide Areas during Pandemics: a Density Map
and Segmentation Approach [0.0]
エンドツーエンドのディープラーニングを用いた社会距離監視のための新しいフレームワークを提案する。
私たちのフレームワークは、地下真理密度マップに基づく新しい地下真理の作成で構成されています。
我々は,カメラ1台から遠ざかっても,社会的距離に従わないゾーンの提供に,我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2021-04-07T19:26:26Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。