Fugu-MT 論文翻訳(概要): SCMM: Calibrating Cross-modal Representations for Text-Based Person Search

論文の概要: SCMM: Calibrating Cross-modal Representations for Text-Based Person Search

arxiv url: http://arxiv.org/abs/2304.02278v3
Date: Thu, 17 Oct 2024 08:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.746647
Title: SCMM: Calibrating Cross-modal Representations for Text-Based Person Search
Title（参考訳）: SCMM:テキストに基づく人物検索のためのクロスモーダル表現の校正
Authors: Jing Liu, Donglai Wei, Yang Liu, Sipeng Zhang, Tong Yang, Victor C. M. Leung,
Abstract要約: テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。クロスモーダルTBPSタスクでは、共通埋め込み空間において、よく分散された表現を得ることが重要である。本稿では,Sew and Masked Modeling (SCMM) という手法を提案する。
参考スコア（独自算出の注目度）: 43.17325362167387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-Based Person Search (TBPS) is a crucial task that enables accurate retrieval of target individuals from large-scale galleries with only given textual caption. For cross-modal TBPS tasks, it is critical to obtain well-distributed representation in the common embedding space to reduce the inter-modal gap. Furthermore, learning detailed image-text correspondences is essential to discriminate similar targets and enable fine-grained search. To address these challenges, we present a simple yet effective method named Sew Calibration and Masked Modeling (SCMM) that calibrates cross-modal representations by learning compact and well-aligned embeddings. SCMM is distinguished by two novel losses to provide fine-grained cross-modal representations: 1) a Sew calibration loss that takes the quality of textual captions as guidance and aligns features between image and text modalities, and 2) a Masked Caption Modeling (MCM) loss that leverages a masked caption prediction task to establish detailed and generic relationships between textual and visual parts. The dual-pronged strategy refines feature alignment and enriches cross-modal correspondences, enabling the accurate distinction of similar individuals. Consequently, its streamlined dual-encoder architecture avoids complex branches and interactions and facilitates high-speed inference suitable for real-time requirements. Consequently, high-speed inference is achieved, which is essential for resource-limited applications often demanding real-time processing. Extensive experiments on three popular TBPS benchmarks demonstrate the superiority of SCMM, achieving top results with 73.81%, 74.25%, and 57.35% Rank-1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReID, respectively. We hope SCMM's scalable and cost-effective design will serve as a strong baseline and facilitate future research in this field.
Abstract（参考訳）: テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。クロスモーダルTBPSタスクでは、共通埋め込み空間において、モダル間ギャップを低減するために、よく分散された表現を得ることが重要である。さらに、類似したターゲットを識別し、きめ細かい検索を可能にするためには、詳細な画像テキスト対応の学習が不可欠である。これらの課題に対処するために,Sew Calibration and Masked Modeling (SCMM) というシンプルな手法を提案する。 SCMMは2つの新しい損失によって区別され、細粒度のクロスモーダル表現を提供する。 1)文字キャプションの質を指導として、画像とテキストのモダリティの特徴を調整した下級校正損失 2) マスク付きキャプション予測タスクを利用して, テキストと視覚部品の詳細な, 汎用的な関係を確立するマスク付きキャプションモデリング(MCM)の損失について検討した。二重進行戦略は特徴アライメントを洗練させ、類似した個体の正確な識別を可能にする。そのため、その合理化されたデュアルエンコーダアーキテクチャは複雑な分岐や相互作用を回避し、リアルタイム要求に適した高速推論を容易にする。その結果、リアルタイム処理を必要とするリソース制限されたアプリケーションには、高速な推論が不可欠である。 3つの一般的なTBPSベンチマークの大規模な実験は、SCMMの優位性を示し、CUHK-PEDES、ICFG-PEDES、RSTPReIDでそれぞれ73.81%、74.25%、57.35%のランク-1の精度を達成した。 SCMMのスケーラブルで費用対効果の高い設計が強力なベースラインとして役立ち、この分野の将来的な研究を促進することを願っている。

関連論文リスト

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking [8.758773321492809]
モーダル内およびモーダル間協調反射という,マルチモーダルなエンティティリンクタスクのための新しいフレームワークを提案する。我々のフレームワークは、タスクにおける現在の最先端メソッドを一貫して上回り、それぞれ3.2%、5.1%、および1.6%の改善を実現しています。
論文参考訳（メタデータ） (2025-08-04T09:43:54Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。 RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文参考訳（メタデータ） (2025-05-22T14:59:30Z)
Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文参考訳（メタデータ） (2024-12-19T17:51:49Z)
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。本稿では,両者の相違に対処するための2段階の枠組みを提案する。 MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。 CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文参考訳（メタデータ） (2024-02-15T09:31:07Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文参考訳（メタデータ） (2023-12-08T08:18:12Z)
CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-19T07:17:27Z)
Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。 MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文参考訳（メタデータ） (2023-03-23T15:42:05Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文参考訳（メタデータ） (2022-01-20T12:05:10Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
Dual-path CNN with Max Gated block for Text-Based Person Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文参考訳（メタデータ） (2020-09-20T03:33:29Z)
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。 TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。 MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文参考訳（メタデータ） (2020-08-12T11:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。