Fugu-MT 論文翻訳(概要): Calibrating Cross-modal Feature for Text-Based Person Searching

論文の概要: Calibrating Cross-modal Feature for Text-Based Person Searching

arxiv url: http://arxiv.org/abs/2304.02278v1
Date: Wed, 5 Apr 2023 07:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 13:11:04.335999
Title: Calibrating Cross-modal Feature for Text-Based Person Searching
Title（参考訳）: テキストに基づく人物検索のためのクロスモーダル特徴の校正
Authors: Donglai Wei, Sipeng Zhang, Tong Yang, Jing Liu
Abstract要約: 本稿では,テキストに基づく人物検索のためのクロスモーダルな特徴の校正手法を提案する。アーキテクチャはデュアルエンコーダと分離可能なクロスモーダルデコーダのみである。 CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
参考スコア（独自算出の注目度）: 15.289009253607292
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel and effective method calibrating cross-modal features for text-based person search. Our method is cost-effective and can easily retrieve specific persons with textual captions. Specifically, its architecture is only a dual-encoder and a detachable cross-modal decoder. Without extra multi-level branches or complex interaction modules as the neck following the backbone, our model makes a high-speed inference only based on the dual-encoder. Besides, our method consists of two novel losses to provide fine-grained cross-modal features. A Sew loss takes the quality of textual captions as guidance and aligns features between image and text modalities. A Masking Caption Modeling (MCM) loss uses a masked captions prediction task to establish detailed and generic relationships between textual and visual parts. We show the top results in three popular benchmarks, including CUHK-PEDES, ICFG-PEDES, and RSTPReID. In particular, our method achieves 73.81% Rank@1, 74.25% Rank@1 and 57.35% Rank@1 on them, respectively. In addition, we also validate each component of our method with extensive experiments. We hope our powerful and scalable paradigm will serve as a solid baseline and help ease future research in text-based person search.
Abstract（参考訳）: 本稿では,テキストに基づく人物探索のためのクロスモーダル特徴の校正手法を提案する。本手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。具体的には、dual-encoderとdetachable cross-modal decoderのみである。バックボーンを追従するネックとして、余分なマルチレベル分岐や複雑な相互作用モジュールがなければ、我々のモデルはデュアルエンコーダのみに基づいて高速な推論を行う。さらに,本手法は2つの新たな損失から成り,細粒度のクロスモーダル特性を提供する。 Sew Losは、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを使用して、テキスト部品と視覚部品との間の詳細かつ汎用的な関係を確立する。 CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。特に, 73.81% Rank@1, 74.25% Rank@1, 57.35% Rank@1を達成した。さらに,本手法の各成分を広範囲な実験により検証する。当社の強力でスケーラブルなパラダイムが、堅固なベースラインとして機能し、テキストベースの人物検索における将来の研究を容易にすることを願っています。

関連論文リスト

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking [8.758773321492809]
モーダル内およびモーダル間協調反射という,マルチモーダルなエンティティリンクタスクのための新しいフレームワークを提案する。我々のフレームワークは、タスクにおける現在の最先端メソッドを一貫して上回り、それぞれ3.2%、5.1%、および1.6%の改善を実現しています。
論文参考訳（メタデータ） (2025-08-04T09:43:54Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。 RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文参考訳（メタデータ） (2025-05-22T14:59:30Z)
Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文参考訳（メタデータ） (2024-12-19T17:51:49Z)
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。本稿では,両者の相違に対処するための2段階の枠組みを提案する。 MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。 CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文参考訳（メタデータ） (2024-02-15T09:31:07Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文参考訳（メタデータ） (2023-12-08T08:18:12Z)
CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-19T07:17:27Z)
Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。 MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文参考訳（メタデータ） (2023-03-23T15:42:05Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文参考訳（メタデータ） (2022-01-20T12:05:10Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
Dual-path CNN with Max Gated block for Text-Based Person Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文参考訳（メタデータ） (2020-09-20T03:33:29Z)
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。 TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。 MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文参考訳（メタデータ） (2020-08-12T11:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。