論文の概要: ReSURE: Regularizing Supervision Unreliability for Multi-turn Dialogue Fine-tuning
- arxiv url: http://arxiv.org/abs/2508.19996v1
- Date: Wed, 27 Aug 2025 15:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.692719
- Title: ReSURE: Regularizing Supervision Unreliability for Multi-turn Dialogue Fine-tuning
- Title(参考訳): ReSURE: マルチターン対話ファインチューニングのための正規化スーパービジョンの信頼性
- Authors: Yiming Du, Yifan Xiang, Bin Liang, Dahua Lin, Kam-Fai Wong, Fei Tan,
- Abstract要約: マルチターン対話システムは、低品質のデータに晒された場合、しばしば劣化した性能に悩まされる。
本稿では,適応学習手法であるReSUREを提案する。
単一ソースと混合品質のデータセットの実験では、安定性と応答品質が改善された。
- 参考スコア(独自算出の注目度): 72.05731026796335
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Fine-tuning multi-turn dialogue systems requires high-quality supervision but often suffers from degraded performance when exposed to low-quality data. Supervision errors in early turns can propagate across subsequent turns, undermining coherence and response quality. Existing methods typically address data quality via static prefiltering, which decouples quality control from training and fails to mitigate turn-level error propagation. In this context, we propose ReSURE (Regularizing Supervision UnREliability), an adaptive learning method that dynamically down-weights unreliable supervision without explicit filtering. ReSURE estimates per-turn loss distributions using Welford's online statistics and reweights sample losses on the fly accordingly. Experiments on both single-source and mixed-quality datasets show improved stability and response quality. Notably, ReSURE enjoys positive Spearman correlations (0.21 ~ 1.0 across multiple benchmarks) between response scores and number of samples regardless of data quality, which potentially paves the way for utilizing large-scale data effectively. Code is publicly available at https://github.com/Elvin-Yiming-Du/ReSURE_Multi_Turn_Training.
- Abstract(参考訳): 微調整されたマルチターン対話システムは高品質な監視を必要とするが、低品質なデータに晒された場合、しばしば性能劣化に悩まされる。
アーリーターンにおけるスーパービジョンエラーは、その後のターンを越えて伝播し、コヒーレンスと応答品質を損なう。
既存の方法では、静的プリフィルタによってデータ品質に対処するが、これはトレーニングから品質制御を分離し、ターンレベルのエラー伝搬を軽減できない。
本研究では,ReSURE(Regularizing Supervision UnReliability)を提案する。
ReSUREはウェルフォードのオンライン統計を用いてターン当たりの損失分布を推定し、それに応じてサンプル損失を再重み付けする。
単一ソースと混合品質のデータセットの実験では、安定性と応答品質が改善された。
特に、ReSUREはレスポンススコアとデータ品質に関わらずサンプル数との正のスピアマン相関(0.21~1.0)を享受しており、大規模データを効果的に活用する方法を開拓する可能性がある。
コードはhttps://github.com/Elvin-Yiming-Du/ReSURE_Multi_Turn_Trainingで公開されている。
関連論文リスト
- Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [30.34323856102674]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks [64.90981115460937]
本稿では、ディープニューラルネットワーク(NN)の推論時データ漏洩リスクについて検討する。
残差NNの中間出力からブロックワイズ入力特徴を効果的に回収できる新しい後方特徴逆変換法である textbfPEEL を提案する。
その結果,平均二乗誤差 (MSE) で評価した場合,PEEL は最先端の回収方法よりも桁違いに優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-08T20:11:05Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。