論文の概要: RLVF: Learning from Verbal Feedback without Overgeneralization
- arxiv url: http://arxiv.org/abs/2402.10893v1
- Date: Fri, 16 Feb 2024 18:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:40:11.283497
- Title: RLVF: Learning from Verbal Feedback without Overgeneralization
- Title(参考訳): RLVF: オーバージェネレーションのない言語フィードバックから学ぶ
- Authors: Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen,
Sheryl Hsu, Archit Sharma, Chelsea Finn
- Abstract要約: 本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
- 参考スコア(独自算出の注目度): 94.19501420241188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity of contexts in which large language models (LLMs) are deployed
requires the ability to modify or customize default model behaviors to
incorporate nuanced requirements and preferences. A convenient interface to
specify such model adjustments is high-level verbal feedback, such as "Don't
use emojis when drafting emails to my boss." However, while writing high-level
feedback is far simpler than collecting annotations for reinforcement learning
from human feedback (RLHF), we find that simply prompting a model with such
feedback leads to overgeneralization of the feedback to contexts where it is
not relevant. We study the problem of incorporating verbal feedback without
such overgeneralization, inspiring a new method Contextualized Critiques with
Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level
feedback to generate a small synthetic preference dataset specifying how the
feedback should (and should not) be applied. It then fine-tunes the model in
accordance with the synthetic preference data while minimizing the divergence
from the original model for prompts where the feedback does not apply. Our
experimental results indicate that our approach effectively applies verbal
feedback to relevant scenarios while preserving existing behaviors for other
contexts. For both human- and GPT-4-generated high-level feedback, C3PO
effectively adheres to the given feedback comparably to in-context baselines
while reducing overgeneralization by 30%.
- Abstract(参考訳): 大きな言語モデル(llm)がデプロイされるコンテキストの多様性は、デフォルトモデルの振る舞いを変更したりカスタマイズしたりして、ニュアンスされた要求や好みを組み込む能力を必要とします。
このようなモデルの調整を指定するための便利なインターフェースは、「上司にメールを起草する際に絵文字を使わない」といった高いレベルの言語フィードバックである。
しかし、人間フィードバック(rlhf)から強化学習のためのアノテーションを収集するよりも、ハイレベルなフィードバックを書く方がずっと簡単であるが、そのようなフィードバックをモデルに促すだけで、関連するコンテキストにフィードバックを過大に一般化できることがわかった。
このような一般化を伴わずに言語フィードバックを組み込むことの問題点について検討し,制約付き選好最適化(c3po)を用いた新しい文脈的批判法を提案する。
C3POは高レベルのフィードバックを使って、フィードバックがどのように適用されるべきで、適用すべきでないかを示す小さな合成選好データセットを生成する。
そして、フィードバックが適用されないプロンプトのために元のモデルとの相違を最小限に抑えながら、合成好みデータに従ってモデルを微調整する。
実験の結果,既存の行動を維持しつつ,関連するシナリオに対して言語的フィードバックを効果的に適用できることがわかった。
ヒトとgpt-4が生成する高レベルフィードバックでは、c3poは与えられたフィードバックをコンテキスト内ベースラインと互換性を持たせると同時に、オーバージェネライゼーションを30%削減する。
関連論文リスト
- Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文 参考訳(メタデータ) (2024-09-20T23:47:25Z) - Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models [2.0962367975513496]
機械学習は、特定のトレーニングデータの影響をモデルから効率的に排除することを目的としている。
既存の未学習手法は, 無視集合に関連する応答を抑制するために, 負のフィードバックのみに頼っている。
本稿では,AltPO(Alternate Preference Optimization)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:05:07Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Learning to Simulate Natural Language Feedback for Interactive Semantic
Parsing [30.609805601567178]
対話型意味解析のためのNLフィードバックをシミュレーションするタスクを提案する。
私たちはそのタスクに新しいフィードバック評価器を伴います。
我々のフィードバックシミュレータは、コストがかかる人間のアノテーションの完全なセットを用いてトレーニングされたように、同等のエラー修正性能を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-14T16:20:09Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。