Fugu-MT 論文翻訳(概要): From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search

論文の概要: From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search

arxiv url: http://arxiv.org/abs/2404.10292v2
Date: Tue, 21 Jan 2025 02:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.786825
Title: From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search
Title（参考訳）: データデルージュからデータキュレーションへ:効率的なテキストベースの人物検索のためのフィルタリングWoRAパラダイム
Authors: Jintao Sun, Hao Fei, Zhedong Zheng, Gangyi Ding,
Abstract要約: テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
参考スコア（独自算出の注目度）: 30.88999109835329
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In text-based person search endeavors, data generation has emerged as a prevailing practice, addressing concerns over privacy preservation and the arduous task of manual annotation. Although the number of synthesized data can be infinite in theory, the scientific conundrum persists that how much generated data optimally fuels subsequent model training. We observe that only a subset of the data in these constructed datasets plays a decisive role. Therefore, we introduce a new Filtering-WoRA paradigm, which contains a filtering algorithm to identify this crucial data subset and WoRA (Weighted Low-Rank Adaptation) learning strategy for light fine-tuning. The filtering algorithm is based on the cross-modality relevance to remove the lots of coarse matching synthesis pairs. As the number of data decreases, we do not need to fine-tune the entire model. Therefore, we propose a WoRA learning strategy to efficiently update a minimal portion of model parameters. WoRA streamlines the learning process, enabling heightened efficiency in extracting knowledge from fewer, yet potent, data instances. Extensive experimentation validates the efficacy of pretraining, where our model achieves advanced and efficient retrieval performance on challenging real-world benchmarks. Notably, on the CUHK-PEDES dataset, we have achieved a competitive mAP of 67.02% while reducing model training time by 19.82%.
Abstract（参考訳）: テキストベースの人物検索では、プライバシ保護や手作業によるアノテーションの面倒な作業に対する懸念に対処するため、データ生成が主流となっている。合成データの数は理論上無限であるが、科学的なコンウンドラムは、生成したデータの量がその後のモデルトレーニングに最適な燃料を供給していることを主張している。これらの構築されたデータセットのデータのサブセットのみが決定的な役割を果たすことを観察する。そこで我々は,この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと,光微調整のためのWoRA(Weighted Low-Rank Adaptation)学習戦略を含む新しいフィルタ-WoRAパラダイムを提案する。フィルタアルゴリズムは、粗いマッチング合成ペアを多数取り除くために、モダリティの相互関係に基づいている。データ数が減少するにつれて、モデル全体を微調整する必要はありません。そこで本研究では,モデルパラメータの最小部分を効率的に更新するWoRA学習戦略を提案する。 WoRAは学習プロセスを合理化し、少ないが強力なデータインスタンスから知識を抽出する効率を高める。大規模な実験により事前学習の有効性が検証され,本モデルでは,実世界のベンチマークにおいて,高精度かつ効率的な検索性能が得られた。特に、CUHK-PEDESデータセットでは、67.02%の競合的なmAPを達成し、モデルのトレーニング時間を19.82%短縮しました。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Efficient Training of Deep Networks using Guided Spectral Data Selection: A Step Toward Learning What You Need [0.30693357740321775]
本稿では,GSTDS(Guid Spectrally Tuned Data Selection)アルゴリズムを提案する。 GSTDSは、市販の事前訓練参照モデルを使用して、トレーニングに使用するデータポイントのサブセットを動的に調整する。性能を損なうことなく、最大4回まで、計算要求の顕著な削減を実現している。
論文参考訳（メタデータ） (2025-07-06T07:02:04Z)
Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々はポイントワイズ情報(PVI)に基づく効果的なデータ削減戦略を提案する。実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。我々は、以前英語のデータセットに限られていたPVIフレームワークを、さまざまな中国のNLPタスクやベースモデルに適用した。
論文参考訳（メタデータ） (2025-06-19T06:59:19Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文参考訳（メタデータ） (2024-11-05T10:55:29Z)
When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter [7.886307329450978]
ダイナスタイルのアルゴリズムは、推定環境モデルからのシミュレーションデータを用いてモデルフリートレーニングを加速することにより、2つのアプローチを組み合わせる。これまでの作業では、モデルアンサンブルを使用したり、実際の環境から収集されたデータで推定されたモデルを事前訓練することで、この問題に対処している。本研究では,実環境において収集したデータから大きく分岐する推定モデルからシミュレーションデータを除去するアウト・オブ・ディストリビューションデータフィルタを提案する。
論文参考訳（メタデータ） (2024-10-16T01:49:03Z)
Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning [22.748835458594744]
Retrievalをベースとする。 Ensemble (RPE) - ベクトル化されたデータベースを作成する新しい方法。 Low-Rank Adaptations (LoRA) RPEは、広範囲なトレーニングの必要性を最小限に抑え、ラベル付きデータの要求を排除し、特にゼロショット学習に有効である。 RPEは、生のデータにアクセスせずにモデルパラメータを変更するため、ヘルスケアのようなプライバシに敏感なドメインに適している。
論文参考訳（メタデータ） (2024-10-13T16:28:38Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文参考訳（メタデータ） (2024-02-08T02:29:33Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文参考訳（メタデータ） (2020-02-10T21:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。