論文の概要: Towards Aligning Language Models with Textual Feedback
- arxiv url: http://arxiv.org/abs/2407.16970v1
- Date: Wed, 24 Jul 2024 03:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:53:14.764694
- Title: Towards Aligning Language Models with Textual Feedback
- Title(参考訳): テキストフィードバックによる言語モデルの調整に向けて
- Authors: Saüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan,
- Abstract要約: ALT(Alignment with Textual feedback)は、言語モデルとユーザの好みをテキストで表わすアプローチである。
本稿では, 有害度低減, 要約, 対話応答生成など, さまざまなタスクにおけるテキストフィードバックの有効性と効率について検討する。
- 参考スコア(独自算出の注目度): 43.55450701925131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ALT (ALignment with Textual feedback), an approach that aligns language models with user preferences expressed in text. We argue that text offers greater expressiveness, enabling users to provide richer feedback than simple comparative preferences and this richer feedback can lead to more efficient and effective alignment. ALT aligns the model by conditioning its generation on the textual feedback. Our method relies solely on language modeling techniques and requires minimal hyper-parameter tuning, though it still presents the main benefits of RL-based alignment algorithms and can effectively learn from textual feedback. We explore the efficacy and efficiency of textual feedback across different tasks such as toxicity reduction, summarization, and dialog response generation. We find that ALT outperforms PPO for the task of toxicity reduction while being able to match its performance on summarization with only 20% of the samples. We also explore how ALT can be used with feedback provided by an existing LLM where we explore an LLM providing constrained and unconstrained textual feedback. We also outline future directions to align models with natural language feedback.
- Abstract(参考訳): ALT(Alignment with Textual feedback)は,言語モデルとユーザの好みをテキストで表現したアプローチである。
テキストはより表現力が高く、ユーザーは簡単な比較選好よりもリッチなフィードバックを提供でき、このリッチなフィードバックはより効率的で効果的なアライメントをもたらす可能性がある、と我々は主張する。
ALTは、その生成をテキストフィードバックに条件付けすることでモデルを整列させる。
提案手法は,言語モデリング技術のみに頼り,最小限のハイパーパラメータチューニングを必要とするが,RLに基づくアライメントアルゴリズムの主な利点は残っており,テキストフィードバックから効果的に学習することができる。
本稿では, 有害度低減, 要約, 対話応答生成など, さまざまなタスクにおけるテキストフィードバックの有効性と効率について検討する。
その結果, ALT は PPO よりも有毒度低減の課題に優れており, 総和時の性能は 20% のサンプルで一致していることがわかった。
また、既存のLLMからのフィードバックでALTをどのように利用できるかを検討し、制約付きおよび制約なしのテキストフィードバックを提供するLLMを探索する。
また、モデルと自然言語のフィードバックを合わせるための今後の方向性について概説する。
関連論文リスト
- Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。