論文の概要: Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels
- arxiv url: http://arxiv.org/abs/2404.14313v2
- Date: Tue, 21 May 2024 17:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:02:40.409185
- Title: Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels
- Title(参考訳): 相互情報を用いた自己監督的アライメント:優先ラベルなしで原則に従うことを学ぶ
- Authors: Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman,
- Abstract要約: 本稿では,事前学習した言語モデルを好みラベルや実演を必要とせずに微調整するアルゴリズムであるSAMIを紹介する。
単ターン対話および要約において、SAMI訓練ミストラル7bは、初期事前学習モデルよりも優れる。
この結果から,事前学習したLMは,優先ラベルやデモ,人間の監視を使わずに,構成に従うことができることがわかった。
- 参考スコア(独自算出の注目度): 33.84519044168631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When prompting a language model (LM), users often expect the model to adhere to a set of behavioral principles across diverse tasks, such as producing insightful content while avoiding harmful or biased language. Instilling such principles (i.e., a constitution) into a model is resource-intensive, technically challenging, and generally requires human preference labels or examples. We introduce SAMI, an iterative algorithm that finetunes a pretrained language model (without requiring preference labels or demonstrations) to increase the conditional mutual information between constitutions and self-generated responses given queries from a dataset. On single-turn dialogue and summarization, a SAMI-trained mistral-7b outperforms the initial pretrained model, with win rates between 66% and 77%. Strikingly, it also surpasses an instruction-finetuned baseline (mistral-7b-instruct) with win rates between 55% and 57% on single-turn dialogue. SAMI requires a model that writes the principles. To avoid dependence on strong models for writing principles, we align a strong pretrained model (mixtral-8x7b) using constitutions written by a weak instruction-finetuned model (mistral-7b-instruct), achieving a 65% win rate on summarization. Finally, we investigate whether SAMI generalizes to diverse summarization principles (e.g., "summaries should be scientific") and scales to stronger models (llama3-70b), finding that it achieves win rates of up to 68% for learned and 67% for held-out principles compared to the base model. Our results show that a pretrained LM can learn to follow constitutions without using preference labels, demonstrations, or human oversight.
- Abstract(参考訳): 言語モデル(LM)を促す場合、ユーザは、有害な言語や偏見のある言語を避けながら、洞察力のあるコンテンツを生成するなど、さまざまなタスクにわたる行動原則のセットに従うことをしばしば期待する。
このような原則(すなわち、構成)をモデルに組み込むことは、資源集約的で技術的に困難であり、一般に人間の好みラベルや例を必要とする。
SAMIは事前訓練された言語モデル(好みラベルやデモを必要とせずに)を微調整し、データセットから与えられたクエリと自己生成応答の条件付き相互情報を増大させる反復アルゴリズムである。
シングルターンダイアログと要約では、SAMI訓練ミストラル7bが66%から77%の勝利率で最初の事前学習モデルを上回っている。
厳密に言えば、シングルターンダイアログで55%から57%の勝利率で、命令を微調整したベースライン(mistral-7b-instruct)を上回ります。
SAMIには原則を書くモデルが必要です。
原理を書くための強いモデルへの依存を避けるため、弱い命令精細モデル(mistral-7b-instruct)によって書かれた構成を用いて、強い事前訓練されたモデル(mixtral-8x7b)を整列し、要約において65%の勝利率を達成する。
最後に,SAMIが多種多様な要約原理(例えば,「サマリーは科学的である」)に一般化し,より強力なモデル(ラマ3-70b)にスケールし,学習で最大68%,基本モデルと比較して保留原理で最大67%の勝利率を達成することを確かめる。
この結果から,事前学習したLMは,好みラベルやデモ,人間の監視を使わずに,構成に従うことができることがわかった。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。
RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。
次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。