論文の概要: Training Flow Matching Models with Reliable Labels via Self-Purification
- arxiv url: http://arxiv.org/abs/2509.19091v1
- Date: Tue, 23 Sep 2025 14:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.902014
- Title: Training Flow Matching Models with Reliable Labels via Self-Purification
- Title(参考訳): 自己浄化による信頼性ラベルを用いたフローマッチングモデルの訓練
- Authors: Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee,
- Abstract要約: 本稿では,フローマッチングフレームワーク内で信頼できないデータをフィルタリングする手法として,SPFM(Self-Purifying Flow Matching)を提案する。
SPFMは、トレーニングプロセス中にモデル自体を使用して不審なデータを識別し、事前訓練されたモデルや追加モジュールの必要性を回避します。
実験の結果,SPFMでトレーニングしたモデルでは,ノイズラベルでトレーニングした場合でも,特定条件に正確に準拠するサンプルが生成されることがわかった。
- 参考スコア(独自算出の注目度): 6.131772929312606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training datasets are inherently imperfect, often containing mislabeled samples due to human annotation errors, limitations of tagging models, and other sources of noise. Such label contamination can significantly degrade the performance of a trained model. In this work, we introduce Self-Purifying Flow Matching (SPFM), a principled approach to filtering unreliable data within the flow-matching framework. SPFM identifies suspicious data using the model itself during the training process, bypassing the need for pretrained models or additional modules. Our experiments demonstrate that models trained with SPFM generate samples that accurately adhere to the specified conditioning, even when trained on noisy labels. Furthermore, we validate the robustness of SPFM on the TITW dataset, which consists of in-the-wild speech data, achieving performance that surpasses existing baselines.
- Abstract(参考訳): トレーニングデータセットは本質的に不完全であり、人間のアノテーションエラー、タグ付けモデルの制限、その他のノイズ源によるラベル付きサンプルを含むことが多い。
このようなラベル汚染は、訓練されたモデルの性能を著しく低下させることができる。
本研究では,フローマッチングフレームワーク内で信頼できないデータをフィルタリングする手法として,SPFM(Self-Purifying Flow Matching)を提案する。
SPFMは、トレーニングプロセス中にモデル自体を使用して不審なデータを識別し、事前訓練されたモデルや追加モジュールの必要性を回避します。
実験の結果,SPFMでトレーニングしたモデルでは,ノイズラベルでトレーニングした場合でも,特定条件に正確に準拠するサンプルが生成されることがわかった。
さらに,TITWデータセット上でのSPFMのロバスト性を検証し,既存のベースラインを超える性能を実現する。
関連論文リスト
- DDB: Diffusion Driven Balancing to Address Spurious Correlations [24.940576844328408]
経験的リスク最小化でトレーニングされたディープニューラルネットワークは、アウト・オブ・ディストリビューションのサンプルに一般化できないことが多い。
テキストと画像の拡散モデルを用いたトレーニングサンプルを生成するための拡散駆動バランス(DDB)手法を提案する。
実験の結果,本手法は既存の最先端手法よりもグループ精度がよいことがわかった。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - Early Stopping Against Label Noise Without Validation Data [54.27621957395026]
所望のモデルを選択するのに検証データを必要としないラベルウェーブと呼ばれる新しい早期停止手法を提案する。
各種設定におけるラベルウェーブ法の有効性と,ノイズラベルを用いた学習における既存手法の性能向上を両立させる能力について述べる。
論文 参考訳(メタデータ) (2025-02-11T13:40:15Z) - Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - Label-Noise Robust Diffusion Models [18.82847557713331]
条件拡散モデルは、様々な生成タスクにおいて顕著な性能を示した。
訓練には、条件付き入力でしばしばノイズを含む大規模なデータセット、すなわちノイズラベルが必要である。
本稿では,雑音ラベル付き条件付き拡散モデルの学習のための遷移対応重み付きDenoising Score Matchingを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:00:34Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。