論文の概要: Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels
- arxiv url: http://arxiv.org/abs/2404.14313v1
- Date: Mon, 22 Apr 2024 16:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:27:39.593773
- Title: Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels
- Title(参考訳): 相互情報を用いた自己監督的アライメント:優先ラベルなしで原則に従うことを学ぶ
- Authors: Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman,
- Abstract要約: SAMIは、事前訓練された言語モデルに、好みのラベルや実演を必要とせず、行動原理に従うように教える手法である。
シングルターンダイアログと要約では、SAMI訓練ミストラル7bが66%から77%の勝利率で最初の事前学習モデルを上回っている。
この結果から,事前学習したLMは,優先ラベルや実演,人間の監視を使わずに,構成に従うことを学べることが示唆された。
- 参考スコア(独自算出の注目度): 33.84519044168631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When prompting a language model (LM), users frequently expect the model to adhere to a set of behavioral principles across diverse tasks, such as producing insightful content while avoiding harmful or biased language. Instilling such principles into a model can be resource-intensive and technically challenging, generally requiring human preference labels or examples. We introduce SAMI, a method for teaching a pretrained LM to follow behavioral principles that does not require any preference labels or demonstrations. SAMI is an iterative algorithm that finetunes a pretrained LM to increase the conditional mutual information between constitutions and self-generated responses given queries from a datasest. On single-turn dialogue and summarization, a SAMI-trained mistral-7b outperforms the initial pretrained model, with win rates between 66% and 77%. Strikingly, it also surpasses an instruction-finetuned baseline (mistral-7b-instruct) with win rates between 55% and 57% on single-turn dialogue. SAMI requires a "principle writer" model; to avoid dependence on stronger models, we further evaluate aligning a strong pretrained model (mixtral-8x7b) using constitutions written by a weak instruction-finetuned model (mistral-7b-instruct). The SAMI-trained mixtral-8x7b outperforms both the initial model and the instruction-finetuned model, achieving a 65% win rate on summarization. Our results indicate that a pretrained LM can learn to follow constitutions without using preference labels, demonstrations, or human oversight.
- Abstract(参考訳): 言語モデル(LM)を促す場合、ユーザは、有害な言語や偏見のある言語を避けながら、洞察力のあるコンテンツを生成するなど、さまざまなタスクにわたる行動原則のセットに従うことをしばしば期待する。
このような原則をモデルに組み込むことは、リソース集約的で技術的に困難であり、一般的には人間の好みラベルや例を必要とする。
SAMIは、事前学習したLMに、選好ラベルやデモンストレーションを必要としない行動原理に従うように教える手法である。
SAMIは、事前訓練されたLMを微調整して、データから与えられたクエリの条件付き相互情報と自己生成応答を増大させる反復アルゴリズムである。
シングルターンダイアログと要約では、SAMI訓練ミストラル7bが66%から77%の勝利率で最初の事前学習モデルを上回っている。
厳密に言えば、シングルターンダイアログで55%から57%の勝利率で、命令を微調整したベースライン(mistral-7b-instruct)を上回ります。
SAMIには「基本書き手」モデルが必要であり、より強いモデルへの依存を避けるため、弱い命令細粒度モデル(mistral-7b-instruct)で書かれた構成を用いて、強い事前訓練されたモデル(mixtral-8x7b)の整合性をさらに評価する。
SAMIで訓練されたmixtral-8x7bは、初期モデルと命令精細モデルの両方を上回り、総和で65%の勝利率を達成する。
この結果から,事前学習したLMは,優先ラベルや実演,人間の監視を使わずに,構成に従うことを学べることが示唆された。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。
RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。
次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。