論文の概要: ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language
- arxiv url: http://arxiv.org/abs/2005.07327v2
- Date: Thu, 30 Jul 2020 07:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:20:30.221916
- Title: ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language
- Title(参考訳): ViTAA: 自然言語による人物検索における視覚的テキスト属性のアライメント
- Authors: Zhe Wang, Zhiyuan Fang, Jun Wang, Yezhou Yang
- Abstract要約: 自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。
そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。
私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
- 参考スコア(独自算出の注目度): 36.319953919737245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person search by natural language aims at retrieving a specific person in a
large-scale image pool that matches the given textual descriptions. While most
of the current methods treat the task as a holistic visual and textual feature
matching one, we approach it from an attribute-aligning perspective that allows
grounding specific attribute phrases to the corresponding visual regions. We
achieve success as well as the performance boosting by a robust feature
learning that the referred identity can be accurately bundled by multiple
attribute visual cues. To be concrete, our Visual-Textual Attribute Alignment
model (dubbed as ViTAA) learns to disentangle the feature space of a person
into subspaces corresponding to attributes using a light auxiliary attribute
segmentation computing branch. It then aligns these visual features with the
textual attributes parsed from the sentences by using a novel contrastive
learning loss. Upon that, we validate our ViTAA framework through extensive
experiments on tasks of person search by natural language and by
attribute-phrase queries, on which our system achieves state-of-the-art
performances. Code will be publicly available upon publication.
- Abstract(参考訳): 自然言語による人物検索は、与えられたテキスト記述にマッチする大規模画像プール内の特定の人物を検索することを目的としている。
現在の手法のほとんどは,タスクを全体的視覚的特徴マッチングとテキスト的特徴マッチングとして扱うが,属性指向の観点から,特定の属性句を対応する視覚領域に接地することができる。
我々は、参照されたアイデンティティを複数の属性の視覚的手がかりによって正確にバンドルできる堅牢な特徴学習によって、成功とパフォーマンス向上を達成する。
具体的には、視覚-文属性アライメントモデル(vitaaと呼ばれる)は、軽量補助属性セグメンテーション計算ブランチを使用して、人の特徴空間を属性に対応するサブスペースに分解することを学びます。
そして、新しい対照的な学習損失を用いて、これらの視覚的特徴を文から解析されたテキスト属性と整合させる。
その上で,自然言語による人物探索のタスクと属性・フレーズによるクエリの広範囲な実験を行い,システムによる最先端のパフォーマンスの検証を行った。
コードは公開時に公開される。
関連論文リスト
- MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Unified Text-based Person Retrieval: A Large-scale
Multi-Attribute and Language Search Benchmark [24.366997699462075]
我々は,MALSと呼ばれるテキストに基づく人物検索のための多属性・言語検索データセットを大規模に導入した。
プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。
生成したデータから学習する可能性を検証するために,新たに属性プロンプト学習とテキストマッチング学習フレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-05T14:06:24Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。