論文の概要: Unified Multi-Dataset Training for TBPS
- arxiv url: http://arxiv.org/abs/2601.14978v1
- Date: Wed, 21 Jan 2026 13:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.377503
- Title: Unified Multi-Dataset Training for TBPS
- Title(参考訳): TBPSのための統一型マルチデータセットトレーニング
- Authors: Nilanjana Chatterjee, Sidharatha Garg, A V Subramanyam, Brejesh Lall,
- Abstract要約: 既存のTBPS手法は、分散シフトを処理するためにデータセット中心の微調整に依存している。
複数のデータセットにまたがって単一の統合TBPSモデルをトレーニングできますか?
現在のトレーニングパラダイムは、多数のユニークな個人IDにスケールしないため、すべてのデータセットに対するナイーブな共同トレーニングは、依然として準最適であることを示す。
i)様々なTBPSデータセットを結合的にマージするノイズ対応統合データセットキュレーション戦略,(ii)スケーラブルな識別識別学習フレームワークである。
- 参考スコア(独自算出の注目度): 7.745213180689951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-Based Person Search (TBPS) has seen significant progress with vision-language models (VLMs), yet it remains constrained by limited training data and the fact that VLMs are not inherently pre-trained for pedestrian-centric recognition. Existing TBPS methods therefore rely on dataset-centric fine-tuning to handle distribution shift, resulting in multiple independently trained models for different datasets. While synthetic data can increase the scale needed to fine-tune VLMs, it does not eliminate dataset-specific adaptation. This motivates a fundamental question: can we train a single unified TBPS model across multiple datasets? We show that naive joint training over all datasets remains sub-optimal because current training paradigms do not scale to a large number of unique person identities and are vulnerable to noisy image-text pairs. To address these challenges, we propose Scale-TBPS with two contributions: (i) a noise-aware unified dataset curation strategy that cohesively merges diverse TBPS datasets; and (ii) a scalable discriminative identity learning framework that remains effective under a large number of unique identities. Extensive experiments on CUHK-PEDES, ICFG-PEDES, RSTPReid, IIITD-20K, and UFine6926 demonstrate that a single Scale-TBPS model outperforms dataset-centric optimized models and naive joint training.
- Abstract(参考訳): テキストベースパーソンサーチ(TBPS)は視覚言語モデル(VLM)で大きな進歩を遂げているが、限られた訓練データと、歩行者中心の認識のためにVLMが本質的に事前訓練されていないという事実に制約されている。
既存のTBPS手法は、分散シフトを処理するためにデータセット中心の微調整に頼っているため、異なるデータセットに対して複数の独立に訓練されたモデルが生成される。
合成データはVLMの微調整に必要なスケールを増大させるが、データセット固有の適応を排除しない。
複数のデータセットにまたがって単一の統合TBPSモデルをトレーニングできますか?
現在のトレーニングパラダイムは、多数のユニークな人物識別にスケールせず、ノイズの多い画像とテキストのペアに対して脆弱であるため、すべてのデータセットに対するナイーブな共同トレーニングが依然として最適であることを示す。
これらの課題に対処するため、我々は2つのコントリビューションでスケール-TBPSを提案する。
(i)多様なTBPSデータセットを結合したノイズ対応統合データセットキュレーション戦略
(II)多くのユニークなアイデンティティの下で有効であるスケーラブルな識別識別学習フレームワーク。
CUHK-PEDES、ICFG-PEDES、RSTPReid、IIITD-20K、UFine6926に関する大規模な実験は、単一のスケール-TBPSモデルがデータセット中心の最適化モデルとナイーブな関節トレーニングより優れていることを示した。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。