論文の概要: Boosting Weak Positives for Text Based Person Search
- arxiv url: http://arxiv.org/abs/2501.17586v2
- Date: Thu, 30 Jan 2025 10:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:53:04.418379
- Title: Boosting Weak Positives for Text Based Person Search
- Title(参考訳): テキストに基づく人物検索のための弱陽性化
- Authors: Akshay Modi, Ashhar Aziz, Nilanjana Chatterjee, A V Subramanyam,
- Abstract要約: トレーニング中の挑戦的なサンプルを動的に識別し,強調するブースティング手法を導入する。
提案手法は,提案モジュールの有効性を実証し,4つの歩行者データセット間での性能向上を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large vision-language models have revolutionized cross-modal object retrieval, but text-based person search (TBPS) remains a challenging task due to limited data and fine-grained nature of the task. Existing methods primarily focus on aligning image-text pairs into a common representation space, often disregarding the fact that real world positive image-text pairs share a varied degree of similarity in between them. This leads models to prioritize easy pairs, and in some recent approaches, challenging samples are discarded as noise during training. In this work, we introduce a boosting technique that dynamically identifies and emphasizes these challenging samples during training. Our approach is motivated from classical boosting technique and dynamically updates the weights of the weak positives, wherein, the rank-1 match does not share the identity of the query. The weight allows these misranked pairs to contribute more towards the loss and the network has to pay more attention towards such samples. Our method achieves improved performance across four pedestrian datasets, demonstrating the effectiveness of our proposed module.
- Abstract(参考訳): 大規模視覚言語モデルは、クロスモーダルオブジェクト検索に革命をもたらしたが、テキストベースの人物探索(TBPS)は、限られたデータとタスクのきめ細かい性質のため、依然として困難な課題である。
既存の手法は主に画像とテキストのペアを共通の表現空間に整合させることに重点を置いており、現実の正のイメージとテキストのペアがそれらの間に様々な類似性を持っているという事実を無視することが多い。
これにより、モデルは容易なペアを優先順位付けし、最近のいくつかのアプローチでは、課題のあるサンプルはトレーニング中にノイズとして破棄される。
本研究では,トレーニング中のこれらの課題を動的に識別し,強調するブースティング手法を提案する。
我々のアプローチは古典的なブースティング手法から動機付けられ、弱い正の重みを動的に更新するが、ランク1の一致はクエリの同一性を共有しない。
重み付けにより、これらの不正なペアは損失に対してより多くの貢献をし、ネットワークはそのようなサンプルに対してより多くの注意を払う必要がある。
提案手法は,提案モジュールの有効性を実証し,4つの歩行者データセット間での性能向上を実現する。
関連論文リスト
- ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model [19.915033191502328]
この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。
ビジョン言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にする。
我々は,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の排除による余分なサンプルの供給と空洞の補充を行う。
論文 参考訳(メタデータ) (2024-08-20T14:27:03Z) - Boosting Unconstrained Face Recognition with Targeted Style Adversary [10.428185253933004]
ラベル付き集合とラベルなし集合のインスタンスレベルの特徴統計を補間することにより、トレーニングデータをシンプルかつ効果的に拡張する手法を提案する。
TSA(Targeted Style Adversary)と呼ばれるこの手法は,入力領域が特徴統計に反映され,(ii)顔認識モデルの性能がスタイル情報に影響されるという2つの観測結果によって動機付けられている。
論文 参考訳(メタデータ) (2024-08-14T16:13:03Z) - Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Dynamic Sampling for Deep Metric Learning [7.010669841466896]
深度メートル法学習は、視覚的に類似した画像を近くの場所にマッピングし、埋め込み多様体内の互いに視覚的に異なる画像を分離する。
トレーニングペアをネットワークに送受信し易い順に整理する動的サンプリング戦略を提案する。
これにより、ネットワークは、初期の簡単なトレーニングペアからカテゴリ間の一般的な境界を学習し、後のハードトレーニングサンプルに主に依存したモデルの詳細を確定することができる。
論文 参考訳(メタデータ) (2020-04-24T09:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。