論文の概要: ELSA: Evaluating Localization of Social Activities in Urban Streets using Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2406.01551v2
- Date: Thu, 05 Dec 2024 14:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:01.547947
- Title: ELSA: Evaluating Localization of Social Activities in Urban Streets using Open-Vocabulary Detection
- Title(参考訳): ELSA:オープンボキャブラリ検出による街路における社会活動の地域化の評価
- Authors: Maryam Hosseini, Marco Cipriano, Sedigheh Eslami, Daniel Hodczak, Liu Liu, Andres Sevtsuk, Gerard de Melo,
- Abstract要約: 本稿では,社会活動のローカライゼーションを評価するELSAについて紹介する。
重なり合う予測における意味的一貫性を評価するため,新しい信頼度スコア計算手法であるNLSEと,新しい動的ボックス集約(DBA)アルゴリズムを導入する。
我々は,広く使用されているSOTAモデルであるGrounding DINO, Detic, OWL, MDETRについて報告する。
- 参考スコア(独自算出の注目度): 22.420962041487282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Open Vocabulary Detection (OVD) models exhibit a number of challenges. They often struggle with semantic consistency across diverse inputs, and are often sensitive to slight variations in input phrasing, leading to inconsistent performance. The calibration of their predictive confidence, especially in complex multi-label scenarios, remains suboptimal, frequently resulting in overconfident predictions that do not accurately reflect their context understanding. To understand these limitations, multi-label detection benchmarks are needed. A particularly challenging domain for such benchmarking is social activities. Due to the lack of multi-label benchmarks for social interactions, in this work we present ELSA: Evaluating Localization of Social Activities. ELSA draws on theoretical frameworks in urban sociology and design and uses in-the-wild street-level imagery, where the size of groups and the types of activities vary significantly. ELSA includes more than 900 manually annotated images with more than 4,300 multi-labeled bounding boxes for individual and group activities. We introduce a novel confidence score computation method NLSE and a novel Dynamic Box Aggregation (DBA) algorithm to assess semantic consistency in overlapping predictions. We report our results on the widely-used SOTA models Grounding DINO, Detic, OWL, and MDETR. Our evaluation protocol considers semantic stability and localization accuracy and further exposes the limitations of existing approaches.
- Abstract(参考訳): 既存のOpen Vocabulary Detection (OVD)モデルには、いくつかの課題がある。
彼らは様々な入力のセマンティックな一貫性に苦しむことが多く、入力のフレーズのわずかなバリエーションに敏感であり、一貫性のないパフォーマンスをもたらす。
予測信頼性の校正、特に複雑なマルチラベルのシナリオでは、しばしばコンテキスト理解を正確に反映しない過信予測が生じる。
これらの制限を理解するには、マルチラベル検出ベンチマークが必要である。
このようなベンチマークを行う上で特に困難な分野は、社会活動である。
社会的相互作用のマルチラベルベンチマークが欠如しているため、本稿ではELSA: Evaluating Localization of Social Activityを紹介する。
ELSAは、都市社会学とデザインの理論的枠組みに基づいており、グループの大きさや活動の種類が著しく異なる街路レベルの画像を使用する。
ELSAには900以上の手動の注釈付き画像が含まれており、4300以上の複数ラベル付きバウンディングボックスがある。
重なり合う予測における意味的一貫性を評価するため,新しい信頼度スコア計算手法であるNLSEと,新しい動的ボックス集約(DBA)アルゴリズムを導入する。
我々は,広く使用されているSOTAモデルであるGrounding DINO, Detic, OWL, MDETRについて報告する。
評価プロトコルは意味的安定性と局所化の精度を考慮し,既存のアプローチの限界を明らかにする。
関連論文リスト
- SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Differences of communication activity and mobility patterns between
urban and rural people [0.0]
本研究では,コールディテール記録(CDR)を用いて,人々の社会的コミュニケーションと移動パターンを分析した。
その結果,都市部では通話活動は高いが移動性は低いが,農村部ではその逆の行動を示すことがわかった。
個人の年齢と性別は、都市部や農村部で季節パターンに異なる役割を果たすことが観察されている。
論文 参考訳(メタデータ) (2023-11-22T19:10:14Z) - Time-space dynamics of income segregation: a case study of Milan's
neighbourhoods [0.0]
本研究では,都市活動の時間的ダイナミクスに埋め込まれたソーシャルミキシングを3次元的に分析する空間を提案する。
住宅地は夜間に社会的な混合を奨励しないが、労働時間によって包摂が促進され、市中心部は交流のレベルが高められている。
レジャーエリアは、公共交通機関や様々な関心点といった都市の特徴によって、社会的相互作用の潜在的ファシリテーターとして出現する。
論文 参考訳(メタデータ) (2023-09-29T14:50:13Z) - Spatiotemporal gender differences in urban vibrancy [0.0]
都会の活力には男女差があることが示されている。
また,各都市に正と負の空間的流出が存在することも判明した。
私たちの結果は、都市の不平等に対する理解を高め、将来の都市をより公平にする方法を可能にします。
論文 参考訳(メタデータ) (2023-04-25T14:12:58Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Active Learning-based Isolation Forest (ALIF): Enhancing Anomaly
Detection in Decision Support Systems [2.922007656878633]
ALIFは一般的な孤立林の軽量な修正であり、他の最先端のアルゴリズムと比較して優れた性能を示した。
提案手法は,現実のシナリオでますます普及しているDSS(Decision Support System)の存在に特に注目されている。
論文 参考訳(メタデータ) (2022-07-08T14:36:38Z) - This Must Be the Place: Predicting Engagement of Online Communities in a
Large-scale Distributed Campaign [70.69387048368849]
我々は、何百万人ものアクティブメンバーを持つコミュニティの行動について研究する。
テキストキュー,コミュニティメタデータ,構造的特性を組み合わせたハイブリッドモデルを構築した。
Redditのr/placeを通じて、大規模なオンライン実験を通じて、私たちのモデルの適用性を実証します。
論文 参考訳(メタデータ) (2022-01-14T08:23:16Z) - SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian
Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。
SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。
公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文 参考訳(メタデータ) (2021-12-05T01:49:18Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Discovering Underground Maps from Fashion [80.02941583103612]
本研究では,都市部の地下地図を自動的に作成する手法を提案する。
本手法は,都市全域から公開されている画像を用いて,類似のファッションセンスを持つ地域を探索し,地図を監督せずにセグメント化する。
論文 参考訳(メタデータ) (2020-12-04T23:40:59Z) - Automatic Extraction of Urban Outdoor Perception from Geolocated
Free-Texts [1.8419317899207144]
本稿では,人々の知覚を抽出するための,自動的かつ汎用的なアプローチを提案する。
我々は、シカゴ、ニューヨーク、ロンドンにおける都市屋外の文脈における我々のアプローチを例示する。
本手法は,異なる視点を考慮し,都市部をよりよく理解する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-10-13T14:59:46Z) - Joint Learning of Social Groups, Individuals Action and Sub-group
Activities in Videos [23.15064911470468]
ソーシャルタスクのためのエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は,従来のグループ認識活動タスクに広く採用されている2つのベンチマークに,最先端の成果をセットする。
論文 参考訳(メタデータ) (2020-07-06T10:42:11Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。