論文の概要: A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions
- arxiv url: http://arxiv.org/abs/2003.00808v1
- Date: Thu, 20 Feb 2020 10:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:33:19.633556
- Title: A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions
- Title(参考訳): 視覚と言語記述を用いた人物再認識のための畳み込みベースライン
- Authors: Ammarah Farooq, Muhammad Awais, Fei Yan, Josef Kittler, Ali Akbari,
and Syed Safwan Khalid
- Abstract要約: 現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
- 参考スコア(独自算出の注目度): 24.794592610444514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical person re-identification approaches assume that a person of
interest has appeared across different cameras and can be queried by one of the
existing images. However, in real-world surveillance scenarios, frequently no
visual information will be available about the queried person. In such
scenarios, a natural language description of the person by a witness will
provide the only source of information for retrieval. In this work, person
re-identification using both vision and language information is addressed under
all possible gallery and query scenarios. A two stream deep convolutional
neural network framework supervised by cross entropy loss is presented. The
weights connecting the second last layer to the last layer with class
probabilities, i.e., logits of softmax layer are shared in both networks.
Canonical Correlation Analysis is performed to enhance the correlation between
the two modalities in a joint latent embedding space. To investigate the
benefits of the proposed approach, a new testing protocol under a multi modal
ReID setting is proposed for the test split of the CUHK-PEDES and CUHK-SYSU
benchmarks. The experimental results verify the merits of the proposed system.
The learnt visual representations are more robust and perform 22\% better
during retrieval as compared to a single modality system. The retrieval with a
multi modal query greatly enhances the re-identification capability of the
system quantitatively as well as qualitatively.
- Abstract(参考訳): 古典的な人物再同定アプローチは、興味ある人物が異なるカメラにまたがって現れ、既存の画像の1つで検索できると仮定する。
しかし、現実世界の監視シナリオでは、クエリされた人物に関する視覚的な情報は頻繁に提供されない。
このようなシナリオでは、証人による人物の自然言語記述は、検索のための唯一の情報源を提供する。
本研究では,視覚情報と言語情報の両方を用いた人物の再識別を,可能なすべてのギャラリーおよびクエリシナリオの下で処理する。
クロスエントロピー損失によって制御される2つのストリーム深い畳み込みニューラルネットワークフレームワークを示す。
2番目の層と最後の層をクラス確率でつなぐ重み、すなわちsoftmax層のロジットを両ネットワークで共有する。
連接埋め込み空間における2つのモードの相関性を高めるために正準相関解析を行う。
提案手法の利点を検討するため,CUHK-PEDESとCUHK-SYSUベンチマークの試験分割に対して,マルチモーダルReID設定に基づく新しいテストプロトコルを提案する。
実験結果は,提案方式のメリットを検証した。
学習された視覚的表現は、単一のモダリティシステムと比較して、検索時に22\%向上する。
マルチモーダルクエリによる検索は,定量的かつ質的にシステムの再同定能力を大幅に向上させる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Gait Recognition using Multi-Scale Partial Representation Transformation
with Capsules [22.99694601595627]
本稿では,カプセルを用いたマルチスケール部分歩行表現の伝達を学習する,新しいディープネットワークを提案する。
我々のネットワークは、まず最先端のディープ部分特徴抽出器を用いて、マルチスケールな部分表現を得る。
その後、前向きと後向きの部分的特徴間のパターンの相関関係と共起関係を繰り返し学習する。
論文 参考訳(メタデータ) (2020-10-18T19:47:38Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - FMT:Fusing Multi-task Convolutional Neural Network for Person Search [33.91664470686695]
本稿では,検出と再同定の相関性と不均一性に対処するために,FMT-CNN(Fusing Multi-task Convolutional Neural Network)を提案する。
CUHK-SYSU Person Searchデータセットの実験結果から,提案手法の性能は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-01T05:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。