論文の概要: Towards Robust Text-to-Image Person Retrieval: Multi-View Reformulation for Semantic Compensation
- arxiv url: http://arxiv.org/abs/2604.18376v1
- Date: Mon, 20 Apr 2026 15:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.957779
- Title: Towards Robust Text-to-Image Person Retrieval: Multi-View Reformulation for Semantic Compensation
- Title(参考訳): ロバストテキスト・画像人物検索に向けて:意味的補償のための多視点再構成
- Authors: Chao Yuan, Yujian Zhao, Haoxuan Xu, Guanglin Niu,
- Abstract要約: 本稿では,Large Language Models (LLM) によって駆動される意味的補償フレームワーク (MVR) を提案する。
マルチビューのセマンティックな再構成と特徴補償によって、クロスモーダルな表現の一貫性を高める。
実験により,本手法はトレーニングを伴わずに元のモデルの精度を向上できることを示すとともに,3つのテキスト対人物検索データセット上でSOTAを実行する。
- 参考スコア(独自算出の注目度): 11.925230809051143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text-to-image person retrieval tasks, the diversity of natural language expressions and the implicitness of visual semantics often lead to the problem of Expression Drift, where semantically equivalent texts exhibit significant feature discrepancies in the embedding space due to phrasing variations, thereby degrading the robustness of image-text alignment. This paper proposes a semantic compensation framework (MVR) driven by Large Language Models (LLMs), which enhances cross-modal representation consistency through multi-view semantic reformulation and feature compensation. The core methodology comprises three components: Multi-View Reformulation (MVR): A dual-branch prompting strategy combines key feature guidance (extracting visually critical components via feature similarity) and diversity-aware rewriting to generate semantically equivalent yet distributionally diverse textual variants; Textual Feature Robustness Enhancement: A training-free latent space compensation mechanism suppresses noise interference through multi-view feature mean-pooling and residual connections, effectively capturing "Semantic Echoes"; Visual Semantic Compensation: VLM generates multi-perspective image descriptions, which are further enhanced through shared text reformulation to address visual semantic gaps. Experiments demonstrate that our method can improve the accuracy of the original model well without training and performs SOTA on three text-to-image person retrieval datasets.
- Abstract(参考訳): テキストから画像への人物検索タスクでは、自然言語表現の多様性と視覚的意味論の暗黙性は、しばしば表現ドリフトの問題を引き起こす。
本稿では,多視点のセマンティック・リフォームと特徴補償により,多言語モデル(LLM)によって駆動される意味補償フレームワーク(MVR)を提案する。
MVR(Multi-View Reformulation)は、重要な特徴ガイダンス(特徴類似性を通じて視覚的に重要なコンポーネントを抽出する)と多様性を意識した書き換えを組み合わせて、意味論的に等価だが分散的なテキストの変種を生成すること、テキストの特徴ロバストネスの強化:マルチビュー特徴量プールと残留接続によるノイズ干渉を抑制し、"セマンティックエコー(Semantic Echoes)"を効果的にキャプチャすること、ビジュアルセマンティック補償(Visual Semantic Compensation): VLMは、視覚的意味的ギャップに対処するために、多視点画像記述を生成すること、などである。
実験により,本手法はトレーニングを伴わずに元のモデルの精度を向上できることを示すとともに,3つのテキスト対人物検索データセット上でSOTAを実行する。
関連論文リスト
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。
我々は,視覚連鎖機構による多目的意味関係の理解を深める。
訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文 参考訳(メタデータ) (2026-04-08T15:37:42Z) - Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。
プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-03T20:48:43Z) - MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.30559905769859]
MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文 参考訳(メタデータ) (2025-03-11T07:00:20Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。