論文の概要: Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval
- arxiv url: http://arxiv.org/abs/2410.21318v1
- Date: Sat, 26 Oct 2024 03:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:12.716484
- Title: Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval
- Title(参考訳): 人物検索のためのマルチパス探索とフィードバック調整
- Authors: Bin Kang, Bin Chen, Junjie Wang, Yong Xu,
- Abstract要約: MeFaは、イントラとインターモーダルの本質的なフィードバックを探索して、ターゲットの調整を行うフレームワークである。
MeFaは、追加のデータや複雑な構造を必要とすることなく、優れた人物検索性能を実現する。
- 参考スコア(独自算出の注目度): 21.639455548282303
- License:
- Abstract: Text-based person retrieval aims to identify the specific persons using textual descriptions as queries. Existing ad vanced methods typically depend on vision-language pre trained (VLP) models to facilitate effective cross-modal alignment. However, the inherent constraints of VLP mod-els, which include the global alignment biases and insuffi-cient self-feedback regulation, impede optimal retrieval per formance. In this paper, we propose MeFa, a Multi-Pathway Exploration, Feedback, and Adjustment framework, which deeply explores intrinsic feedback of intra and inter-modal to make targeted adjustment, thereby achieving more precise person-text associations. Specifically, we first design an intra modal reasoning pathway that generates hard negative sam ples for cross-modal data, leveraging feedback from these samples to refine intra-modal reasoning, thereby enhancing sensitivity to subtle discrepancies. Subsequently, we intro duce a cross-modal refinement pathway that utilizes both global information and intermodal feedback to refine local in formation, thus enhancing its global semantic representation. Finally, the discriminative clue correction pathway incorpo rates fine-grained features of secondary similarity as discrim inative clues to further mitigate retrieval failures caused by disparities in these features. Experimental results on three public benchmarks demonstrate that MeFa achieves superior person retrieval performance without necessitating additional data or complex structures.
- Abstract(参考訳): テキストに基づく人物検索は、テキスト記述をクエリとして使用する特定の人物を特定することを目的としている。
既存の先行した手法は、一般的に視覚言語事前訓練(VLP)モデルに依存し、効果的な相互モーダルアライメントを促進する。
しかしながら、グローバルアライメントバイアスや不十分な自己フィードバック制御を含むVLPモジュールの固有の制約は、フォルマンス毎の最適な検索を妨げる。
本稿では,マルチパスウェイ探索,フィードバック,調整のフレームワークであるMeFaを提案する。
具体的には、まず、これらのサンプルからのフィードバックを活用して、モダル内推論を洗練させ、微妙な不一致に対する感度を高めるために、モダル内推論経路を設計する。
その後、グローバル情報とインターモーダルフィードバックの両方を利用して、局所的な構造を洗練し、グローバルな意味表現を向上するクロスモーダルリファインメント・パスを創出する。
最後に、識別的手がかり補正経路が二次類似性のきめ細かい特徴を識別的手がかりとして評価し、これらの特徴の相違による検索障害をさらに緩和する。
3つの公開ベンチマーク実験の結果、MeFaは追加データや複雑な構造を必要とせず、優れた人物検索性能を発揮することが示された。
関連論文リスト
- WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [28.317315761271804]
WildFeedbackは、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した好みデータセットを作成する新しいフレームワークである。
我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを実現する。
実験により,WildFeedbackを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data [34.55109747972333]
本稿では,現実のアプリケーションで容易に利用できるユーザフィードバックを用いて,ソースモデルをターゲット環境に適用することを目的とする。
負バイアスフィードバック(NBF)と呼ばれる新しい概念を用いて、この現象を解析する。
スケーラブルな適応アプローチであるRetrieval Latent Defendingを提案する。
論文 参考訳(メタデータ) (2024-07-22T05:15:41Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。