Fugu-MT 論文翻訳(概要): RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search

論文の概要: RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search

arxiv url: http://arxiv.org/abs/2305.13653v1
Date: Tue, 23 May 2023 03:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 19:24:13.134025
Title: RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search
Title（参考訳）: RaSa:テキスト検索における関係性と感性を考慮した表現学習
Authors: Yang Bai, Min Cao, Daming Gao, Ziqiang Cao, Chen Chen, Zhenfeng Fan, Liqiang Nie, Min Zhang
Abstract要約: 関係性と感性を考慮した表現学習法(RaSa)を提案する。 RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
参考スコア（独自算出の注目度）: 51.09723403468361
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based person search aims to retrieve the specified person images given a textual description. The key to tackling such a challenging task is to learn powerful multi-modal representations. Towards this, we propose a Relation and Sensitivity aware representation learning method (RaSa), including two novel tasks: Relation-Aware learning (RA) and Sensitivity-Aware learning (SA). For one thing, existing methods cluster representations of all positive pairs without distinction and overlook the noise problem caused by the weak positive pairs where the text and the paired image have noise correspondences, thus leading to overfitting learning. RA offsets the overfitting risk by introducing a novel positive relation detection task (i.e., learning to distinguish strong and weak positive pairs). For another thing, learning invariant representation under data augmentation (i.e., being insensitive to some transformations) is a general practice for improving representation's robustness in existing methods. Beyond that, we encourage the representation to perceive the sensitive transformation by SA (i.e., learning to detect the replaced words), thus promoting the representation's robustness. Experiments demonstrate that RaSa outperforms existing state-of-the-art methods by 6.94%, 4.45% and 15.35% in terms of Rank@1 on CUHK-PEDES, ICFG-PEDES and RSTPReid datasets, respectively. Code is available at: https://github.com/Flame-Chasers/RaSa.
Abstract（参考訳）: テキストベースの人物検索は、テキスト記述が与えられた特定人物画像の検索を目的としている。このような困難なタスクに取り組む鍵は、強力なマルチモーダル表現を学ぶことである。そこで我々は,関係認識学習(RA)と感認識学習(SA)の2つの新しいタスクを含む関係認識型表現学習法(RaSa)を提案する。例えば、既存の方法では、テキストとペア画像がノイズ対応を持つ弱い正のペアによって引き起こされるノイズ問題を区別せず、見落としずに、すべての正のペアの表現をクラスタ化する。 RAは、新しい正の関係検出タスク(すなわち、強い正と弱い正のペアを区別する学習)を導入することで、過適合リスクをオフセットする。別の例として、データ拡張の下で不変表現を学習することは、既存の方法における表現のロバスト性を改善する一般的なプラクティスである。その上、表現はsaによる敏感な変換(つまり置換された単語を検出するための学習)を知覚することを奨励し、表現の堅牢性を促進する。 RaSaは、CUHK-PEDESの Rank@1 と ICFG-PEDES と RSTPReid のデータセットでそれぞれ6.94%、4.45%、および15.35% で、既存の最先端手法より優れていることを示した。コードは、https://github.com/Flame-Chasers/RaSa.comで入手できる。

関連論文リスト

DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification [6.381155145404096]
我々は、パーソナライゼーションタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介する。視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを実現するために,DTS(Dynamic Tokenwise similarity)損失を提案する。 The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus shows superior performance than the State-of-the-art method。
論文参考訳（メタデータ） (2024-05-13T04:21:00Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。 3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文参考訳（メタデータ） (2023-11-09T15:03:57Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
DeepRING: Learning Roto-translation Invariant Representation for LiDAR based Place Recognition [12.708391665878844]
We propose DeepRing to learn the Roto-translation invariant representation from LiDAR scan。 DeepRingには2つのキーがある。特徴はシングラムから抽出され、特徴はマグニチュードスペクトルによって集約される。位置認識は,各場所がクラスである場合のワンショット学習問題として記述し,関係学習を活用して表現の類似性を構築する。
論文参考訳（メタデータ） (2022-10-20T05:35:30Z)
Learning Fair Representation via Distributional Contrastive Disentanglement [9.577369164287813]
公正な表現を学ぶことは、公平性を達成するか、センシティブな情報を悪用するために不可欠である。本稿では,FarconVAE(Contrastive Variational AutoEncoder)を用いたFAir表現学習手法を提案する。フェアネス、事前訓練されたモデルデバイアス、および様々なモダリティからの領域一般化タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2022-06-17T12:58:58Z)
Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。 UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文参考訳（メタデータ） (2022-04-07T17:34:51Z)
Predicting What You Already Know Helps: Provable Self-Supervised Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文参考訳（メタデータ） (2020-08-03T17:56:13Z)
Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。提案手法は5つの公開データセットで評価される。
論文参考訳（メタデータ） (2020-03-12T11:09:15Z)
Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。数ショットの学習データセットについて広範な実験を行う。
論文参考訳（メタデータ） (2020-02-29T08:37:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。