論文の概要: CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2403.02745v2
- Date: Wed, 30 Oct 2024 08:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:14.259478
- Title: CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models
- Title(参考訳): CURATRON:大規模言語モデルの厳密なアライメントのための完全かつロバストな選好データ
- Authors: Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula,
- Abstract要約: 本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
- 参考スコア(独自算出の注目度): 1.6339731044538859
- License:
- Abstract: This paper addresses the challenges of aligning large language models (LLMs) with human values via preference learning (PL), focusing on incomplete and corrupted data in preference datasets. We propose a novel method for robustly and completely recalibrating values within these datasets to enhance LLMs' resilience against the issues. In particular, we devise a guaranteed polynomial time ranking algorithm that robustifies several existing models, such as the classic Bradley-Terry-Luce (BTL) (Bradley and Terry, 1952) model and certain generalizations of it. To the best of our knowledge, our present work is the first to propose an algorithm that provably recovers an $\epsilon$-optimal ranking with high probability while allowing as large as $O(n)$ perturbed pairwise comparison results per model response. Furthermore, we show robust recovery results in the partially observed setting. Our experiments confirm that our algorithms handle adversarial noise and unobserved comparisons well in both general and LLM preference dataset settings. This work contributes to the development and scaling of more reliable and ethically aligned AI models by equipping the dataset curation pipeline with the ability to handle missing and maliciously manipulated inputs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)と人的価値を優先学習(PL)で整合させる上での課題について論じる。
本稿では,これらのデータセット内の値を堅牢かつ完全に再計算する新しい手法を提案し,その問題に対するLLMのレジリエンスを高める。
特に、古典的なBradley-Terry-Luce (BTL) モデル(Bradley and Terry, 1952) やその特定の一般化など、いくつかの既存モデルを堅牢化する保証多項式時間ランキングアルゴリズムを考案する。
我々の知る限り、本研究は、モデル応答毎に最大$O(n)$摂動対比較結果を許容しつつ、高い確率で$\epsilon$-Optimalランキングを確実に復元するアルゴリズムを最初に提案するものである。
さらに, 部分的に観察された条件下では, 頑健な回復が得られた。
実験により,本アルゴリズムは一般およびLLM選好データセット設定において,逆ノイズや観測されていない比較をうまく処理することを確認した。
この作業は、データセットキュレーションパイプラインに、行方不明で悪意ある操作された入力を処理する能力を備えることによって、より信頼性が高く倫理的に整合したAIモデルの開発とスケーリングに寄与する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Don't Forget Your Reward Values: Language Model Alignment via
Value-based Calibration [26.467379188463028]
そこで本稿では,textbfValue を用いた textbfCalitextbfBration (VCB) 手法を提案する。
実験の結果,VCBはAIアシスタントや要約データセット上の既存のアライメント手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-25T08:45:10Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Nonparametric Estimation in the Dynamic Bradley-Terry Model [69.70604365861121]
カーネルのスムース化に依存する新しい推定器を開発し、時間とともにペア比較を前処理する。
モデルに依存しない設定における推定誤差と余剰リスクの両方について時間変化のオラクル境界を導出する。
論文 参考訳(メタデータ) (2020-02-28T21:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。