論文の概要: Constructive Large Language Models Alignment with Diverse Feedback
- arxiv url: http://arxiv.org/abs/2310.06450v2
- Date: Wed, 11 Oct 2023 07:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:15:59.446841
- Title: Constructive Large Language Models Alignment with Diverse Feedback
- Title(参考訳): 多様なフィードバックを伴う構成型大規模言語モデル
- Authors: Tianshu Yu, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, Yongbin Li
- Abstract要約: 本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
- 参考スコア(独自算出の注目度): 76.9578950893839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent research on large language models (LLMs), there has been a growing
emphasis on aligning these models with human values to reduce the impact of
harmful content. However, current alignment methods often rely solely on
singular forms of human feedback, such as preferences, annotated labels, or
natural language critiques, overlooking the potential advantages of combining
these feedback types. This limitation leads to suboptimal performance, even
when ample training data is available. In this paper, we introduce Constructive
and Diverse Feedback (CDF) as a novel method to enhance LLM alignment, inspired
by constructivist learning theory. Our approach involves collecting three
distinct types of feedback tailored to problems of varying difficulty levels
within the training dataset. Specifically, we exploit critique feedback for
easy problems, refinement feedback for medium problems, and preference feedback
for hard problems. By training our model with this diversified feedback, we
achieve enhanced alignment performance while using less training data. To
assess the effectiveness of CDF, we evaluate it against previous methods in
three downstream tasks: question answering, dialog generation, and text
summarization. Experimental results demonstrate that CDF achieves superior
performance even with a smaller training dataset.
- Abstract(参考訳): 大規模言語モデル(LLMs)に関する最近の研究では、有害なコンテンツの影響を減らすために、これらのモデルを人的価値と整合させることに重点が置かれている。
しかしながら、現在のアライメント手法は、好み、注釈付きラベル、自然言語批判など、人間のフィードバックの特異な形態にのみ依存し、これらのフィードバックタイプを組み合わせる潜在的な利点を見越す。
この制限は、十分なトレーニングデータが利用できる場合でも、最適以下のパフォーマンスをもたらす。
本稿では,コンストラクティブ・アンド・ディバース・フィードバック(CDF)を,コンストラクティブ・ラーニング理論に着想を得て,LCMアライメントを向上させる新しい手法として紹介する。
私たちのアプローチでは、トレーニングデータセット内のさまざまな難易度の問題に合わせた3種類のフィードバックを収集する。
具体的には,簡単な問題に対する批判的フィードバック,中級問題に対する洗練フィードバック,難しい問題に対する選好フィードバックを活用している。
この多様なフィードバックでモデルをトレーニングすることで、より少ないトレーニングデータを用いて、アライメント性能の向上を実現します。
CDFの有効性を評価するため,質問応答,ダイアログ生成,テキスト要約という3つの下流タスクにおいて,従来の手法と比較して評価を行った。
実験の結果,CDFは訓練データセットが小さい場合でも優れた性能を発揮することが示された。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback [15.22874706089491]
我々は、好みのフィードバックで要約モデルを対話的に訓練する新しいフレームワークを導入する。
オフラインデータと新しい報酬モデルを適切に活用することにより、ROUGEスコアとサンプル効率に関する性能を向上させる。
論文 参考訳(メタデータ) (2022-04-12T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。