論文の概要: CAIBC: Capturing All-round Information Beyond Color for Text-based
Person Retrieval
- arxiv url: http://arxiv.org/abs/2209.05773v1
- Date: Tue, 13 Sep 2022 07:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:21:35.292654
- Title: CAIBC: Capturing All-round Information Beyond Color for Text-based
Person Retrieval
- Title(参考訳): CAIBC:テキストベースの人物検索のための色以外の全周情報をキャプチャする
- Authors: Zijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang,
Yifeng Li
- Abstract要約: テキストに基づく人物検索のための共同最適化型マルチブランチアーキテクチャを提案する。
CAIBCはRGBブランチ、GRSブランチ、CLRブランチを含む3つのブランチを含む。
本稿では,CAIBCが既存手法を著しく上回り,最先端性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 8.711154013438627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a natural language description, text-based person retrieval aims to
identify images of a target person from a large-scale person image database.
Existing methods generally face a \textbf{color over-reliance problem}, which
means that the models rely heavily on color information when matching
cross-modal data. Indeed, color information is an important decision-making
accordance for retrieval, but the over-reliance on color would distract the
model from other key clues (e.g. texture information, structural information,
etc.), and thereby lead to a sub-optimal retrieval performance. To solve this
problem, in this paper, we propose to \textbf{C}apture \textbf{A}ll-round
\textbf{I}nformation \textbf{B}eyond \textbf{C}olor (\textbf{CAIBC}) via a
jointly optimized multi-branch architecture for text-based person retrieval.
CAIBC contains three branches including an RGB branch, a grayscale (GRS) branch
and a color (CLR) branch. Besides, with the aim of making full use of all-round
information in a balanced and effective way, a mutual learning mechanism is
employed to enable the three branches which attend to varied aspects of
information to communicate with and learn from each other. Extensive
experimental analysis is carried out to evaluate our proposed CAIBC method on
the CUHK-PEDES and RSTPReid datasets in both \textbf{supervised} and
\textbf{weakly supervised} text-based person retrieval settings, which
demonstrates that CAIBC significantly outperforms existing methods and achieves
the state-of-the-art performance on all the three tasks.
- Abstract(参考訳): 自然言語による人物検索は,大規模人物画像データベースから対象人物の画像を特定することを目的としている。
既存のメソッドは一般的に \textbf{color over-reliance problem} に直面している。
実際、色情報は検索にとって重要な意思決定基準であるが、色への過度な依存は、他の重要な手がかり(テクスチャ情報、構造情報など)からモデルを逸脱させ、結果として準最適検索性能をもたらす。
本稿では,テキストベース人物検索のための統合最適化マルチブランチアーキテクチャを用いて,textbf{c}apture \textbf{a}ll-round \textbf{i}nformation \textbf{b}eyond \textbf{c}olor (\textbf{caibc})を提案する。
caibcにはrgbブランチ、grayscaleブランチ(grsブランチ)、colorブランチ(clrブランチ)の3つのブランチがある。
また、バランスの取れた効果的な方法で全ラウンド情報をフル活用することを目的として、情報のさまざまな側面に参画する3つのブランチが相互にコミュニケーションし、互いに学習できるようにするための相互学習機構を用いる。
提案するcuhk-pedesおよびrstpreidデータセットのテキストベース検索設定におけるcaibc法の評価を行い,caibcが既存の手法を大幅に上回っており,これら3つのタスクの最先端性能を実現することを実証した。
関連論文リスト
- Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。