論文の概要: Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2311.01025v3
- Date: Tue, 30 Apr 2024 06:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:47:42.910115
- Title: Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection
- Title(参考訳): 歩行者検出における言語依存型外見要素と視覚的手がかりの統合
- Authors: Sungjune Park, Hyunjun Kim, Yong Man Ro,
- Abstract要約: 本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
- 参考スコア(独自算出の注目度): 51.66174565170112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown their capabilities in understanding contextual and semantic information regarding knowledge of instance appearances. In this paper, we introduce a novel approach to utilize the strengths of LLMs in understanding contextual appearance variations and to leverage this knowledge into a vision model (here, pedestrian detection). While pedestrian detection is considered one of the crucial tasks directly related to our safety (e.g., intelligent driving systems), it is challenging because of varying appearances and poses in diverse scenes. Therefore, we propose to formulate language-derived appearance elements and incorporate them with visual cues in pedestrian detection. To this end, we establish a description corpus that includes numerous narratives describing various appearances of pedestrians and other instances. By feeding them through an LLM, we extract appearance knowledge sets that contain the representations of appearance variations. Subsequently, we perform a task-prompting process to obtain appearance elements which are guided representative appearance knowledge relevant to a downstream pedestrian detection task. The obtained knowledge elements are adaptable to various detection frameworks, so that we can provide plentiful appearance information by integrating the language-derived appearance elements with visual cues within a detector. Through comprehensive experiments with various pedestrian detectors, we verify the adaptability and effectiveness of our method showing noticeable performance gains and achieving state-of-the-art detection performance on two public pedestrian detection benchmarks (i.e., CrowdHuman and WiderPedestrian).
- Abstract(参考訳): 大規模言語モデル(LLM)は、インスタンスの外観に関する知識に関する文脈的および意味的な情報を理解する能力を示している。
本稿では,LLMの強みを利用した視覚モデル(以下,歩行者検出)にその知識を応用するための新しい手法を提案する。
歩行者検出は、安全(例えば、インテリジェントな運転システム)に直接関係する重要なタスクの1つと考えられているが、様々な場面で外観やポーズが異なるため、困難である。
そこで我々は,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
この目的のために,歩行者や他の事例の様々な外観を記述した多数の物語を含む記述コーパスを確立する。
LLMを通してそれらを供給することにより、外観変化の表現を含む外観知識集合を抽出する。
その後、下流歩行者検知タスクに関連する代表的外観知識である外観要素を得るためのタスクプロンプト処理を行う。
得られた知識要素は、様々な検出フレームワークに適用可能であり、言語由来の外観要素と視覚的手がかりを検出器内に組み込むことで、豊富な外観情報を提供できる。
各種歩行者検知器を用いた総合的な実験を通じて,本手法の適応性と有効性を検証するとともに,2つの公共歩行者検出ベンチマーク(CrowdHumanとWiderPedestrian)における最先端検出性能を実現する。
関連論文リスト
- Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank [51.66174565170112]
本稿では,多目的な歩行者知識銀行を構築するための新しいアプローチを提案する。
我々は大規模な事前訓練モデルから歩行者の知識を抽出する。
次に、ほとんどの代表的特徴を定量化し、背景のシーンと区別できるように指導することで、それらをキュレートする。
論文 参考訳(メタデータ) (2024-04-30T07:01:05Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。