論文の概要: ELSA: Evaluating Localization of Social Activities in Urban Streets
- arxiv url: http://arxiv.org/abs/2406.01551v1
- Date: Mon, 3 Jun 2024 17:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:51:15.535092
- Title: ELSA: Evaluating Localization of Social Activities in Urban Streets
- Title(参考訳): ELSA:街路における社会活動の地域化の評価
- Authors: Maryam Hosseini, Marco Cipriano, Sedigheh Eslami, Daniel Hodczak, Liu Liu, Andres Sevtsuk, Gerard de Melo,
- Abstract要約: なぜ街路は、他の街路よりも多くの社会活動を惹きつけるのか?
ELSAには、個人およびグループアクティビティのための4300以上のマルチラベル境界ボックスを備えた、手動でアノテートされた937イメージが含まれている。
- 参考スコア(独自算出の注目度): 22.420962041487282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do some streets attract more social activities than others? Is it due to street design, or do land use patterns in neighborhoods create opportunities for businesses where people gather? These questions have intrigued urban sociologists, designers, and planners for decades. Yet, most research in this area has remained limited in scale, lacking a comprehensive perspective on the various factors influencing social interactions in urban settings. Exploring these issues requires fine-level data on the frequency and variety of social interactions on urban street. Recent advances in computer vision and the emergence of the open-vocabulary detection models offer a unique opportunity to address this long-standing issue on a scale that was previously impossible using traditional observational methods. In this paper, we propose a new benchmark dataset for Evaluating Localization of Social Activities (ELSA) in urban street images. ELSA draws on theoretical frameworks in urban sociology and design. While majority of action recognition datasets are collected in controlled settings, we use in-the-wild street-level imagery, where the size of social groups and the types of activities can vary significantly. ELSA includes 937 manually annotated images with more than 4,300 multi-labeled bounding boxes for individual and group activities, categorized into three primary groups: Condition, State, and Action. Each category contains various sub-categories, e.g., alone or group under Condition category, standing or walking, which fall under the State category, and talking or dining with regards to the Action category. ELSA is publicly available for the research community.
- Abstract(参考訳): なぜ街路は、他の街路よりも多くの社会活動を惹きつけるのか?
ストリートデザインのせいなのか、近所の土地利用パターンが、人々が集まるビジネスの機会を生み出しているのか?
これらの質問は、都市社会学者、デザイナー、プランナーに何十年も興味を持たせてきた。
しかし、この領域のほとんどの研究は、都市環境における社会的相互作用に影響を与える様々な要因に関する包括的視点を欠いているため、規模が限られている。
これらの問題を探索するには、都市部における社会的相互作用の頻度と多様性に関する詳細なデータが必要である。
コンピュータビジョンの最近の進歩とオープン語彙検出モデルの出現は、従来の観測手法では不可能だったスケールでのこの長年の問題に対処するユニークな機会を提供する。
本稿では,都市の街路画像における社会活動の局所化を評価するためのベンチマークデータセットを提案する。
ELSAは都市社会学とデザインの理論的枠組みを踏襲している。
アクション認識データセットの大部分は制御された設定で収集されるが、私たちは、ソーシャルグループのサイズとアクティビティの種類が著しく異なる、その中間のストリートレベルの画像を使用する。
ELSAには、個人とグループの活動のための4,300以上のマルチラベル境界ボックスを備えた手動で注釈付けされた937の画像が含まれており、条件、状態、行動の3つの主要なグループに分類される。
各カテゴリーは、例えば、単独または条件下のグループ、立位または歩行の様々なサブカテゴリを含み、国家カテゴリーに該当し、アクションカテゴリーに関して話すか、食事をする。
ELSAは研究コミュニティ向けに公開されている。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Active Learning-based Isolation Forest (ALIF): Enhancing Anomaly
Detection in Decision Support Systems [2.922007656878633]
ALIFは一般的な孤立林の軽量な修正であり、他の最先端のアルゴリズムと比較して優れた性能を示した。
提案手法は,現実のシナリオでますます普及しているDSS(Decision Support System)の存在に特に注目されている。
論文 参考訳(メタデータ) (2022-07-08T14:36:38Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。