論文の概要: CycleAlign: Iterative Distillation from Black-box LLM to White-box
Models for Better Human Alignment
- arxiv url: http://arxiv.org/abs/2310.16271v1
- Date: Wed, 25 Oct 2023 01:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:30:33.047167
- Title: CycleAlign: Iterative Distillation from Black-box LLM to White-box
Models for Better Human Alignment
- Title(参考訳): cyclealign: ブラックボックスllmからホワイトボックスモデルへの反復蒸留によるヒトアライメントの改善
- Authors: Jixiang Hong, Quan Tu, Changyu Chen, Xing Gao, Ji Zhang, Rui Yan
- Abstract要約: 大規模コーパスで訓練された言語モデルは、しばしば有害な、有害な、あるいは人間の嗜好に反してコンテンツを生成する。
本稿では,パラメータ可視LLM(ブラックボックス)からパラメータ可視モデル(ホワイトボックス)へ反復的にアライメント機能を蒸留するためにCycleAlignを導入する。
我々はCycleAlignが既存の手法をはるかに上回り、人間の価値に合わせて最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 25.15541878967559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained on large-scale corpus often generate content that is
harmful, toxic, or contrary to human preferences, making their alignment with
human values a critical concern. Reinforcement learning from human feedback
(RLHF) with algorithms like PPO is a prevalent approach for alignment but is
often complex, unstable, and resource-intensive. Recently, ranking-based
alignment methods have emerged, offering stability and effectiveness by
replacing the RL framework with supervised fine-tuning, but they are costly due
to the need for annotated data. Considering that existing large language models
(LLMs) like ChatGPT are already relatively well-aligned and cost-friendly,
researchers have begun to align the language model with human preference from
AI feedback. The common practices, which unidirectionally distill the
instruction-following responses from LLMs, are constrained by their bottleneck.
Thus we introduce CycleAlign to distill alignment capabilities from
parameter-invisible LLMs (black-box) to a parameter-visible model (white-box)
in an iterative manner. With in-context learning (ICL) as the core of the
cycle, the black-box models are able to rank the model-generated responses
guided by human-craft instruction and demonstrations about their preferences.
During iterative interaction, the white-box models also have a judgment about
responses generated by them. Consequently, the agreement ranking could be
viewed as a pseudo label to dynamically update the in-context demonstrations
and improve the preference ranking ability of black-box models. Through
multiple interactions, the CycleAlign framework could align the white-box model
with the black-box model effectively in a low-resource way. Empirical results
illustrate that the model fine-tuned by CycleAlign remarkably exceeds existing
methods, and achieves the state-of-the-art performance in alignment with human
value.
- Abstract(参考訳): 大規模コーパスで訓練された言語モデルは、しばしば有害な、有害な、あるいは人間の嗜好に反してコンテンツを生成する。
PPOのようなアルゴリズムによる人間からのフィードバック(RLHF)からの強化学習は、アライメントの一般的なアプローチであるが、しばしば複雑で不安定でリソース集約である。
近年,RLフレームワークを教師付き微調整に置き換えることによる安定性と有効性を備えたランキングベースのアライメント手法が登場しているが,アノテートデータの必要性からコストがかかる。
ChatGPTのような既存の大規模言語モデル(LLM)は、すでに比較的整合性があり、コストフレンドリであることを考えると、研究者は言語モデルとAIフィードバックからの人間の好みを一致させ始めている。
LLMから命令追従応答を一方向蒸留する一般的な手法は、ボトルネックによって制約される。
そこで我々はCycleAlignを導入し,パラメータ可視LLM(ブラックボックス)からパラメータ可視モデル(ホワイトボックス)へ反復的にアライメント機能を蒸留する。
コンテキスト内学習(ICL)をサイクルの中核として、ブラックボックスモデルでは、ヒューマンクラフトの指示によって導かれるモデル生成応答と、その好みに関するデモンストレーションをランク付けすることができる。
反復的相互作用の間、ホワイトボックスモデルはそれらが生成する応答について判断する。
その結果、合意ランキングは、文脈内デモを動的に更新し、ブラックボックスモデルの選好ランキング能力を向上させる擬似ラベルと見なすことができる。
複数のインタラクションを通じて、cyclealignフレームワークはホワイトボックスモデルを、低リソースの方法で効果的にブラックボックスモデルと整合させることができる。
実験結果から,CycleAlignが微調整したモデルが既存の手法をはるかに上回り,人的価値に合わせて最先端の性能を達成することが示された。
関連論文リスト
- Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias [47.79659355705916]
モデル誘導分散シフト(MIDS)は、以前のモデルが代々のモデルに対して汚染された新しいモデルトレーニングセットを出力するときに発生する。
我々は,複数世代にわたるMIDSの追跡を可能にするフレームワークを導入し,性能,公平性,少数化グループ表現の損失につながることを確認した。
これらの否定的な結果にもかかわらず、モデルがデータエコシステムにおけるポジティブで意図的な介入にどのように使用されるかを特定します。
論文 参考訳(メタデータ) (2024-03-12T17:48:08Z) - CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models [1.7849982327883962]
本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - RLCD: Reinforcement Learning from Contrast Distillation for Language
Model Alignment [128.69765018161146]
コントラスト蒸留による強化学習(Reinforcement Learning from Contrast Distillation, RLCD)は、人間のフィードバックを使わずに自然言語の原則に従うために言語モデルを整列させる手法である。
RLCDは、高品質と低品質の両方の例を含むシミュレーションされた選好ペアを使用して、選好モデルを訓練する。
次に、嗜好モデルを用いて、強化学習によるベースアンアライメント言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。