論文の概要: Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language
Model Control
- arxiv url: http://arxiv.org/abs/2211.05750v3
- Date: Fri, 22 Sep 2023 18:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:43:53.144595
- Title: Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language
Model Control
- Title(参考訳): nano: 最小限の言語モデル制御のためのループ内人間報酬学習
- Authors: Xiang Fan, Yiwei Lyu, Paul Pu Liang, Ruslan Salakhutdinov,
Louis-Philippe Morency
- Abstract要約: Nanoは、人間のフィードバックから継続的に学習する、ループ内の人間訓練アルゴリズムだ。
本研究では,Nanoが不適切な分布を学習し,パーソナライゼーションを実現し,個々の個人の好みの違いを高いサンプル効率で把握できることを示す。
- 参考スコア(独自算出の注目度): 128.5653008081315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have demonstrated extraordinary capabilities in
language generation. However, real-world tasks often require controlling the
distribution of generated text in order to mitigate bias, promote fairness, and
achieve personalization. Existing techniques for controlling the distribution
of generated text only work with quantified distributions, which require
pre-defined categories, proportions of the distribution, or an existing corpus
following the desired distributions. However, many important distributions,
such as personal preferences, are unquantified. In this work, we tackle the
problem of generating text following arbitrary distributions (quantified and
unquantified) by proposing Nano, a few-shot human-in-the-loop training
algorithm that continuously learns from human feedback. Nano achieves
state-of-the-art results on single topic/attribute as well as quantified
distribution control compared to previous works. We also show that Nano is able
to learn unquantified distributions, achieves personalization, and captures
differences between different individuals' personal preferences with high
sample efficiency.
- Abstract(参考訳): 事前訓練された言語モデルは、言語生成において異常な能力を示した。
しかし、現実のタスクは、バイアスを緩和し、公平性を促進し、パーソナライズを達成するために、生成されたテキストの分配を制御する必要があることが多い。
生成したテキストの分布を制御する既存の技術は、あらかじめ定義されたカテゴリ、分布の比率、あるいは所望の分布に従う既存のコーパスを必要とする、定量化された分布でのみ機能する。
しかし、個人の好みなど多くの重要な分布は不適切である。
本研究では,人間のフィードバックから継続的に学習する数発の学習アルゴリズムであるnanoを提案することで,任意の分布(定量化,非定量化)に従ってテキストを生成する問題に取り組む。
nanoは、以前の作品と比較して、単一のトピック/属性と定量化された分布制御で最先端の結果を得る。
また,nanoは非定量的分布を学習し,パーソナライゼーションを実現し,サンプル効率の高い個人選好の違いを捉えることができることを示した。
関連論文リスト
- Generative Conditional Distributions by Neural (Entropic) Optimal Transport [12.152228552335798]
本稿では,条件分布の生成モデル学習を目的とした,ニューラルエントロピー最適輸送手法を提案する。
提案手法は,2つのニューラルネットワークのミニマックストレーニングに依存する。
実世界のデータセットを用いた実験では,現状条件分布学習法と比較して,アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-06-04T13:45:35Z) - Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。
本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T19:17:23Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Distribution Shift Inversion for Out-of-Distribution Prediction [57.22301285120695]
本稿では,OoD(Out-of-Distribution)予測のためのポータブル分布シフト変換アルゴリズムを提案する。
提案手法は,OoDアルゴリズムを広範囲に接続した場合に,一般的な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2023-06-14T08:00:49Z) - Collaborative Learning of Distributions under Heterogeneity and
Communication Constraints [35.82172666266493]
機械学習では、ユーザはしばしば、データを生成するディストリビューションを学ぶために協力する必要がある。
まず、ユーザはサーバと通信して中央分布を学習し、協調する。
そして、学習した中央分布を微調整して、ユーザの個々の分布を推定する。
論文 参考訳(メタデータ) (2022-06-01T18:43:06Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Probing BERT's priors with serial reproduction chains [8.250374560598493]
我々はシリアル再生チェーンを用いてBERTの先行を探索する。
接地構造継手分布の特異かつ一貫した推定器を得ることができる。
得られた先行分布から得られた文の語彙的・統語的統計値と,接地真実コーパス分布の語彙的・統語的統計値を比較する。
論文 参考訳(メタデータ) (2022-02-24T17:42:28Z) - Distributed NLI: Learning to Predict Human Opinion Distributions for
Language Reasoning [76.17436599516074]
自然言語推論のための人間の判断の分布を予測することを目的としている新しいNLUタスクである分散NLIを紹介します。
本研究では,モンテカルロ(MC)Dropout,Deep Ensemble,Re-Calibration,Distribution Distillationという新たな分布推定手法を適用することで,人間の判断分布を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-18T01:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。