論文の概要: Scalable Valuation of Human Feedback through Provably Robust Model Alignment
- arxiv url: http://arxiv.org/abs/2505.17859v1
- Date: Fri, 23 May 2025 13:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.090458
- Title: Scalable Valuation of Human Feedback through Provably Robust Model Alignment
- Title(参考訳): 確率的ロバストモデルアライメントによる人間のフィードバックのスケーラブルな評価
- Authors: Masahiro Fujisawa, Masaki Adachi, Michael A. Osborne,
- Abstract要約: 頑健なアライメント目的は、厳密なラベルノイズの下でも同一のモデルパラメータを生成するべきである。
証明可能な再帰特性を持つ最初の原理的アライメント損失であるH"older-DPOを提案する。
このメトリクスはグラデーションフリーで、スケーラブルで自動化された人間のフィードバックの評価を可能にする。
- 参考スコア(独自算出の注目度): 19.742371911023774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the importance of aligning language models with human preferences, crowd-sourced human feedback is often noisy -- for example, preferring less desirable responses -- posing a fundamental challenge to alignment. A truly robust alignment objective should yield identical model parameters even under severe label noise, a property known as redescending. We prove that no existing alignment methods satisfy this property. To address this, we propose H\"older-DPO, the first principled alignment loss with a provable redescending property, enabling estimation of the clean data distribution from noisy feedback. The aligned model estimates the likelihood of clean data, providing a theoretically grounded metric for dataset valuation that identifies the location and fraction of mislabels. This metric is gradient-free, enabling scalable and automated human feedback valuation without costly manual verification or clean validation dataset. H\"older-DPO achieves state-of-the-art robust alignment performance while accurately detecting mislabels in controlled datasets. Finally, we apply H\"older-DPO to widely used alignment datasets, revealing substantial noise levels and demonstrating that removing these mislabels significantly improves alignment performance across methods.
- Abstract(参考訳): 言語モデルを人間の好みに合わせることの重要性にもかかわらず、クラウドソースされた人間のフィードバックは、しばしば騒々しい。
真にロバストなアライメントの目的は、厳密なラベルノイズの下でも、同じモデルパラメータを生成するべきである。
既存のアライメント手法がこの性質を満たすことはないことを証明している。
そこで本稿では,H\"older-DPOを提案する。H\"older-DPOは,ノイズフィードバックからクリーンなデータ分布を推定できる,証明可能な再帰性を備えたアライメント損失である。
一致したモデルはクリーンなデータの可能性を推定し、データセットの評価のための理論的に根拠づけられた指標を提供し、ミスラベルの位置と割合を識別する。
このメトリクスはグラデーションフリーで、手作業による検証やクリーンな検証データセットを必要とせずに、スケーラブルで自動化された人間のフィードバック評価を可能にする。
H\"older-DPOは、制御されたデータセットのミスラベルを正確に検出しながら、最先端のロバストアライメント性能を達成する。
最後に、広く使われているアライメントデータセットにH\"older-DPOを適用し、かなりのノイズレベルを明らかにし、これらのミスラベルを削除することで、メソッド間のアライメント性能が大幅に向上することを示す。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - Guiding Pseudo-labels with Uncertainty Estimation for Test-Time
Adaptation [27.233704767025174]
Test-Time Adaptation (TTA) は、Unsupervised Domain Adaptation (UDA) の特定のケースであり、モデルがソースデータにアクセスせずにターゲットドメインに適合する。
本稿では,損失再重み付け戦略に基づくTTA設定のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-07T10:04:55Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Towards Robust Adaptive Object Detection under Noisy Annotations [40.25050610617893]
既存のメソッドでは、ソースドメインラベルは完全にクリーンだが、大規模なデータセットにはインスタンスの曖昧さのためにエラーが発生しやすいアノテーションが含まれることが多い。
本稿では,この問題に対処するためのノイズ遅延伝達可能性探索フレームワークを提案する。
NLTEは、60%の破損したアノテーションの下でmAPを8.4%改善し、クリーンソースデータセットでのトレーニングの理想的な上限にアプローチする。
論文 参考訳(メタデータ) (2022-04-06T07:02:37Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。