論文の概要: Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
- arxiv url: http://arxiv.org/abs/2509.23564v1
- Date: Sun, 28 Sep 2025 01:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.292593
- Title: Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
- Title(参考訳): クリーニングファースト、あとで:信頼性の高いLLMアライメントのための選好データクリーニングのベンチマーク
- Authors: Min-Hsuan Yeh, Yixuan Li,
- Abstract要約: 人間のフィードバックは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
この問題を軽減するために様々な自動データクリーニング手法が提案されているが、その効果の体系的評価は依然として不十分である。
PrefCleanBenchは、アライメントパフォーマンスと一般化性の観点からクリーニング戦略を評価するための標準化されたプロトコルを提供する。
- 参考スコア(独自算出の注目度): 18.29012936429329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
- Abstract(参考訳): 人間のフィードバックは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
しかし、そのようなフィードバックはしばしばノイズや矛盾があり、報酬モデルの品質を低下させ、アライメントを妨げる可能性がある。
この問題を軽減するために様々な自動データクリーニング手法が提案されているが、その有効性と一般化性の体系的評価はいまだに欠如している。
このギャップを埋めるために、LLMアライメントの文脈で13の選好データクリーニング手法を評価するための、最初の包括的なベンチマークを導入する。
PrefCleanBenchは、さまざまなデータセット、モデルアーキテクチャ、最適化アルゴリズム間のアライメントパフォーマンスと一般化性の観点から、クリーニング戦略を評価するための標準化されたプロトコルを提供する。
異なる手法を統一し、厳密に比較することにより、アライメントタスクにおけるデータのクリーニングの成功を決定する重要な要因を明らかにする。
このベンチマークは、データ品質の向上を通じてLCMアライメントを改善するための原則と再現可能なアプローチの基盤となる。
我々は、さらなる研究を促進するために、すべてのメソッドのモジュール化された実装をリリースします。
関連論文リスト
- Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。