論文の概要: ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF
- arxiv url: http://arxiv.org/abs/2308.06385v2
- Date: Thu, 14 Dec 2023 14:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:32:19.091763
- Title: ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF
- Title(参考訳): ZYN: RLAIFに疑問の余地のないゼロショットリワードモデル
- Authors: Victor Gallego
- Abstract要約: 本稿では,言語モデルのテキスト生成を望ましい振る舞いに向けるという課題に対処する。
我々は、ゼロショット方式で批判報酬モデルとして、別の命令調整言語モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of directing the text generation of a
language model (LM) towards a desired behavior, aligning the generated text
with the preferences of the human operator. We propose using another,
instruction-tuned language model as a critic reward model in a zero-shot way
thanks to the prompt of a Yes-No question that represents the user preferences,
without requiring further labeled data. This zero-shot reward model provides
the learning signal to further fine-tune the base LM using Reinforcement
Learning from AI Feedback (RLAIF); yet our approach is also compatible in other
contexts such as quality-diversity search. Extensive evidence of the
capabilities of the proposed ZYN framework is provided through experiments in
different domains related to text generation, including detoxification;
optimizing sentiment of movie reviews, or any other attribute; steering the
opinion about a particular topic the model may have; and personalizing prompt
generators for text-to-image tasks. Code available at
\url{https://github.com/vicgalle/zero-shot-reward-models/}.
- Abstract(参考訳): 本稿では,言語モデル(lm)のテキスト生成を望ましい行動に向け,生成したテキストを人間の操作者の好みに合わせる問題に対処する。
本稿では,さらにラベル付けされたデータを必要とすることなく,ユーザの好みを表すYes-No質問のプロンプトにより,ゼロショット方式の言語モデルを批判報酬モデルとして用いることを提案する。
このゼロショット報酬モデルは,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)を用いて,ベースLMをさらに微調整する学習信号を提供する。
提案するzinフレームワークの機能に関する広範な証拠は、テキスト生成に関連するさまざまなドメインの実験、映画レビューの感情の最適化、モデルが持つ可能性のある特定のトピックに関する意見の調整、テキストから画像へのタスクのためのプロンプトジェネレータのパーソナライズなどを通じて提供される。
コードは \url{https://github.com/vicgalle/zero-shot-reward-models/} で利用可能である。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。