論文の概要: CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models
- arxiv url: http://arxiv.org/abs/2403.02745v1
- Date: Tue, 5 Mar 2024 07:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:37:37.963188
- Title: CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models
- Title(参考訳): CURATRON:大規模言語モデルのロバストアライメントのための完全ロバスト選好データ
- Authors: Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula
- Abstract要約: 本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
- 参考スコア(独自算出の注目度): 1.7849982327883962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of aligning large language models (LLMs)
with human values via preference learning (PL), with a focus on the issues of
incomplete and corrupted data in preference datasets. We propose a novel method
for robustly and completely recalibrating values within these datasets to
enhance LLMs resilience against the issues. In particular, we devise a
guaranteed polynomial time ranking algorithm that robustifies several existing
models, such as the classic Bradley--Terry--Luce (BTL) (Bradley and Terry,
1952) model and certain generalizations of it. To the best of our knowledge,
our present work is the first to propose an algorithm that provably recovers an
{\epsilon}-optimal ranking with high probability while allowing as large as
O(n) perturbed pairwise comparison results per model response. Furthermore, we
show robust recovery results in the partially observed setting. Our experiments
confirm that our algorithms handle adversarial noise and unobserved comparisons
well in both general and LLM preference dataset settings. This work contributes
to the development and scaling of more reliable and ethically aligned AI models
by equipping the dataset curation pipeline with the ability to handle missing
and maliciously manipulated inputs.
- Abstract(参考訳): 本稿では,プライオリティ・ラーニング(pl)による大規模言語モデル(llm)と人間の価値の整合に関する課題について,不完全で腐敗したデータの問題に着目した。
本稿では,これらのデータセット内の値を堅牢かつ完全に再計算する新しい手法を提案する。
特に、古典的なBradley-Terry-Luce (BTL) モデル(Bradley and Terry, 1952) やその特定の一般化など、いくつかの既存モデルを堅牢化する保証多項式時間ランク付けアルゴリズムを考案する。
我々の知識を最大限に活用するため,本研究は,モデル応答毎にo(n)パーティベートした対数比較結果を許容しながら,高い確率で {\epsilon}-オプティカルランキングを確実に回復するアルゴリズムを提案する。
さらに, 部分的に観察された環境では, 頑健な回復結果が得られた。
実験により,本アルゴリズムは一般およびLLM選好データセット設定において,逆ノイズや観測されていない比較をうまく処理することを確認した。
この作業は、データセットキュレーションパイプラインに、行方不明で悪意ある操作された入力を処理する能力を備えることによって、より信頼性が高く倫理的に整合したAIモデルの開発とスケーリングに寄与する。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Don't Forget Your Reward Values: Language Model Alignment via
Value-based Calibration [26.467379188463028]
そこで本稿では,textbfValue を用いた textbfCalitextbfBration (VCB) 手法を提案する。
実験の結果,VCBはAIアシスタントや要約データセット上の既存のアライメント手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-25T08:45:10Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Nonparametric Estimation in the Dynamic Bradley-Terry Model [69.70604365861121]
カーネルのスムース化に依存する新しい推定器を開発し、時間とともにペア比較を前処理する。
モデルに依存しない設定における推定誤差と余剰リスクの両方について時間変化のオラクル境界を導出する。
論文 参考訳(メタデータ) (2020-02-28T21:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。