論文の概要: UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity
- arxiv url: http://arxiv.org/abs/2312.03441v6
- Date: Thu, 6 Jun 2024 05:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:20:02.575894
- Title: UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity
- Title(参考訳): UFineBench:超微細粒度テキスト検索を目指して
- Authors: Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao,
- Abstract要約: 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
- 参考スコア(独自算出の注目度): 50.91030850662369
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
- Abstract(参考訳): 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。
まず、UFine6926という新しい \textbf{dataset} を構築する。
我々は、多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手動で注釈付けし、それぞれ80.8語を平均化する。
平均単語数は、前のデータセットの3倍から4倍である。
ドメイン内での標準的な評価に加えて、実際のシナリオをより多く表現する特別な \textbf{evaluation paradigm} も提案する。
クロスドメイン、クロステキストグラニュリティ、クロステキストスタイルを備えた新しい評価セット、UFine3C、平均類似度分布(mSD)と呼ばれる検索能力を正確に測定するための新しい評価指標を含む。
さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。
共有モードの粒度デコーダとハード負のマッチング機構を採用することにより、微細な粒度マイニングを実現する。
標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。
さらに、UFine3Cを評価することにより、UFine6926のトレーニングが、他の粗粒度データセットと比較して、実際のシナリオへの一般化を著しく改善することを示した。
データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。
関連論文リスト
- Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。