論文の概要: VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic
Self-Supervision
- arxiv url: http://arxiv.org/abs/2304.03135v1
- Date: Thu, 6 Apr 2023 15:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:51:14.355392
- Title: VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic
Self-Supervision
- Title(参考訳): vlpd:視覚言語セマンティクスによるコンテキスト対応歩行者検出
- Authors: Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin
- Abstract要約: 本稿では,コンテキスト認識型歩行者検出のためのビジョン・ランゲージ・セマンティック・セルフスーパービジョンによる新しいアプローチを提案する。
まず、完全教師付き歩行者検出と文脈分割の両方を学習する自己教師型視覚言語セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS
第2に,歩行者等を識別しやすくするために,自己指導型プロトタイプ・セマンティック・コントラスト学習法を提案する。
- 参考スコア(独自算出の注目度): 13.268399018823903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting pedestrians accurately in urban scenes is significant for realistic
applications like autonomous driving or video surveillance. However, confusing
human-like objects often lead to wrong detections, and small scale or heavily
occluded pedestrians are easily missed due to their unusual appearances. To
address these challenges, only object regions are inadequate, thus how to fully
utilize more explicit and semantic contexts becomes a key problem. Meanwhile,
previous context-aware pedestrian detectors either only learn latent contexts
with visual clues, or need laborious annotations to obtain explicit and
semantic contexts. Therefore, we propose in this paper a novel approach via
Vision-Language semantic self-supervision for context-aware Pedestrian
Detection (VLPD) to model explicitly semantic contexts without any extra
annotations. Firstly, we propose a self-supervised Vision-Language Semantic
(VLS) segmentation method, which learns both fully-supervised pedestrian
detection and contextual segmentation via self-generated explicit labels of
semantic classes by vision-language models. Furthermore, a self-supervised
Prototypical Semantic Contrastive (PSC) learning method is proposed to better
discriminate pedestrians and other classes, based on more explicit and semantic
contexts obtained from VLS. Extensive experiments on popular benchmarks show
that our proposed VLPD achieves superior performances over the previous
state-of-the-arts, particularly under challenging circumstances like small
scale and heavy occlusion. Code is available at
https://github.com/lmy98129/VLPD.
- Abstract(参考訳): 歩行者を都市部で正確に検出することは、自動運転やビデオ監視といった現実的な応用にとって重要である。
しかし、混乱した人間のような物体は、しばしば誤検知を招き、その異常な外観のため、小規模または密集した歩行者は容易に見逃される。
これらの課題に対処するために、オブジェクト領域だけが不適切なため、より明確でセマンティックなコンテキストを十分に活用する方法が重要な問題となる。
一方、従来のコンテキスト認識型歩行者検出器は、視覚的手がかりで潜時文脈を学習するのみか、明示的かつ意味的な文脈を得るために精巧なアノテーションを必要とする。
そこで本稿では,視覚言語による歩行者検出のための視覚言語意味自己スーパービジョン (vlpd) による明示的な意味文脈のモデル化手法を提案する。
まず,視覚言語モデルによる意味クラスの自己生成ラベルによる歩行者検出と文脈分割の両方を学習する,自己教師付き視覚言語セグメンテーション(vls)セグメンテーション手法を提案する。
さらに,vlsから得られたより明示的な意味的文脈に基づいて,歩行者や他のクラスをより識別するために,自己教師付き先代的意味的コントラスト(psc)学習法を提案する。
一般的なベンチマーク実験により,提案したVLPDは,特に小規模・重閉塞といった困難な状況下で,従来の最先端技術よりも優れた性能を発揮することが示された。
コードはhttps://github.com/lmy98129/VLPDで入手できる。
関連論文リスト
- Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization [3.996503381756227]
WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。
本稿では,人間の行動知識と意味知識を確率論的埋め込み空間に整合させる新しい枠組みを提案する。
本手法は,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-12T07:09:12Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - BID: Boundary-Interior Decoding for Unsupervised Temporal Action
Localization Pre-Trainin [13.273908640951252]
本稿では,骨格に基づく動作シーケンスを意味論的に意味のある事前動作セグメントに分割する,教師なし事前学習フレームワークを提案する。
事前学習ネットワークを少量のアノテートデータで微調整することにより、SOTA法よりも大きなマージンで性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-12T06:23:45Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。