論文の概要: CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models
- arxiv url: http://arxiv.org/abs/2403.02745v1
- Date: Tue, 5 Mar 2024 07:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:37:37.963188
- Title: CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models
- Title(参考訳): CURATRON:大規模言語モデルのロバストアライメントのための完全ロバスト選好データ
- Authors: Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula
- Abstract要約: 本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
- 参考スコア(独自算出の注目度): 1.7849982327883962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of aligning large language models (LLMs)
with human values via preference learning (PL), with a focus on the issues of
incomplete and corrupted data in preference datasets. We propose a novel method
for robustly and completely recalibrating values within these datasets to
enhance LLMs resilience against the issues. In particular, we devise a
guaranteed polynomial time ranking algorithm that robustifies several existing
models, such as the classic Bradley--Terry--Luce (BTL) (Bradley and Terry,
1952) model and certain generalizations of it. To the best of our knowledge,
our present work is the first to propose an algorithm that provably recovers an
{\epsilon}-optimal ranking with high probability while allowing as large as
O(n) perturbed pairwise comparison results per model response. Furthermore, we
show robust recovery results in the partially observed setting. Our experiments
confirm that our algorithms handle adversarial noise and unobserved comparisons
well in both general and LLM preference dataset settings. This work contributes
to the development and scaling of more reliable and ethically aligned AI models
by equipping the dataset curation pipeline with the ability to handle missing
and maliciously manipulated inputs.
- Abstract(参考訳): 本稿では,プライオリティ・ラーニング(pl)による大規模言語モデル(llm)と人間の価値の整合に関する課題について,不完全で腐敗したデータの問題に着目した。
本稿では,これらのデータセット内の値を堅牢かつ完全に再計算する新しい手法を提案する。
特に、古典的なBradley-Terry-Luce (BTL) モデル(Bradley and Terry, 1952) やその特定の一般化など、いくつかの既存モデルを堅牢化する保証多項式時間ランク付けアルゴリズムを考案する。
我々の知識を最大限に活用するため,本研究は,モデル応答毎にo(n)パーティベートした対数比較結果を許容しながら,高い確率で {\epsilon}-オプティカルランキングを確実に回復するアルゴリズムを提案する。
さらに, 部分的に観察された環境では, 頑健な回復結果が得られた。
実験により,本アルゴリズムは一般およびLLM選好データセット設定において,逆ノイズや観測されていない比較をうまく処理することを確認した。
この作業は、データセットキュレーションパイプラインに、行方不明で悪意ある操作された入力を処理する能力を備えることによって、より信頼性が高く倫理的に整合したAIモデルの開発とスケーリングに寄与する。
関連論文リスト
- OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - iTool: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その能力を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
本稿では,これらの課題を軽減するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Nonparametric Estimation in the Dynamic Bradley-Terry Model [69.70604365861121]
カーネルのスムース化に依存する新しい推定器を開発し、時間とともにペア比較を前処理する。
モデルに依存しない設定における推定誤差と余剰リスクの両方について時間変化のオラクル境界を導出する。
論文 参考訳(メタデータ) (2020-02-28T21:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。