論文の概要: GEA: Generation-Enhanced Alignment for Text-to-Image Person Retrieval
- arxiv url: http://arxiv.org/abs/2511.10154v1
- Date: Fri, 14 Nov 2025 01:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.718625
- Title: GEA: Generation-Enhanced Alignment for Text-to-Image Person Retrieval
- Title(参考訳): GEA:テキストから画像への人物検索のためのジェネレーション強化アライメント
- Authors: Hao Zou, Runqing Zhang, Xue Zhou, Jianxiao Zou,
- Abstract要約: TIPR(Text-to- Image Person Retrieval)は、自然言語による人物画像の検索を目的とする。
これらの制約に対処するため、生成的観点からジェネレーション・エンハンスメント・アライメント(GEA)を提案する。
我々は,3つの公開TIPRデータセットであるCUHK-PEDES,RSTPReid,ICFG-PEDESについて広範な実験を行い,GAAの性能評価を行った。
- 参考スコア(独自算出の注目度): 12.483996028288407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image Person Retrieval (TIPR) aims to retrieve person images based on natural language descriptions. Although many TIPR methods have achieved promising results, sometimes textual queries cannot accurately and comprehensively reflect the content of the image, leading to poor cross-modal alignment and overfitting to limited datasets. Moreover, the inherent modality gap between text and image further amplifies these issues, making accurate cross-modal retrieval even more challenging. To address these limitations, we propose the Generation-Enhanced Alignment (GEA) from a generative perspective. GEA contains two parallel modules: (1) Text-Guided Token Enhancement (TGTE), which introduces diffusion-generated images as intermediate semantic representations to bridge the gap between text and visual patterns. These generated images enrich the semantic representation of text and facilitate cross-modal alignment. (2) Generative Intermediate Fusion (GIF), which combines cross-attention between generated images, original images, and text features to generate a unified representation optimized by triplet alignment loss. We conduct extensive experiments on three public TIPR datasets, CUHK-PEDES, RSTPReid, and ICFG-PEDES, to evaluate the performance of GEA. The results justify the effectiveness of our method. More implementation details and extended results are available at https://github.com/sugelamyd123/Sup-for-GEA.
- Abstract(参考訳): TIPR(Text-to- Image Person Retrieval)は、自然言語による人物画像の検索を目的とする。
多くのTIPR手法は有望な結果を得たが、時としてテキストクエリは画像の内容の正確かつ包括的に反映できないため、クロスモーダルアライメントが不十分で、限られたデータセットに過度に適合する。
さらに、テキストと画像の本質的なモダリティギャップはさらにこれらの問題を増幅し、正確なモーダル検索をさらに困難にする。
これらの制約に対処するため、生成的観点からジェネレーション・エンハンスメント・アライメント(GEA)を提案する。
1)テキストガイドトークン拡張(TGTE)は,テキストと視覚パターンのギャップを埋める中間的意味表現として拡散生成画像を導入する。
これらの生成された画像はテキストの意味表現を豊かにし、モーダル間のアライメントを容易にする。
2) 生成画像, 原画像, テキスト特徴間の相互アテンションを組み合わせ, トリプルトアライメントロスに最適化された統一表現を生成する。
我々は,3つの公開TIPRデータセットであるCUHK-PEDES,RSTPReid,ICFG-PEDESについて広範な実験を行い,GAAの性能評価を行った。
結果は,本手法の有効性を正当化するものである。
詳細な実装の詳細と拡張結果は、https://github.com/sugelamyd123/Sup-for-GEAで確認できる。
関連論文リスト
- Text-based Aerial-Ground Person Retrieval [55.31140361809554]
本研究はTAG-PR(Text-based Aerial-Ground Person Retrieval)を紹介する。
異質な空中・地上からの人物画像をテキスト記述で検索することを目的としている。
論文 参考訳(メタデータ) (2025-11-11T15:49:04Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。