Fugu-MT 論文翻訳(概要): The Impact of Preference Agreement in Reinforcement Learning from Human Feedback: A Case Study in Summarization

論文の概要: The Impact of Preference Agreement in Reinforcement Learning from Human Feedback: A Case Study in Summarization

arxiv url: http://arxiv.org/abs/2311.04919v1
Date: Thu, 2 Nov 2023 13:21:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-12 19:19:52.380171
Title: The Impact of Preference Agreement in Reinforcement Learning from Human Feedback: A Case Study in Summarization
Title（参考訳）: 人のフィードバックからの強化学習における選好合意の影響:要約を事例として
Authors: Sian Gooding and Hassan Mansoor
Abstract要約: ヒューマンフィードバックからの強化学習は、テキスト生成品質の複雑でニュアンスな特性をキャプチャするために使用することができる。その結果,(1) 精度の高い報酬モデル,(2) 取得した品質特性を変化させる結果が得られた。
参考スコア（独自算出の注目度）: 4.3512163406552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) can be used to capture complex and nuanced properties of text generation quality. As a result, the task of text summarization has been identified as a good candidate for this process. In this paper, we explore how preference agreement impacts the efficacy of RLHF for summarization. We show that sampling human preferences to include a range of annotator agreement results in (1) higher accuracy reward models and (2) alters the characteristics of quality captured. We additionally show improvements in downstream generation when using a reward model trained with a range of preference agreements. Our contributions have implications for the design of synthetic datasets as well as the importance of considering quality differentials in comparison-based data.
Abstract（参考訳）: RLHF(Reinforcement Learning from Human Feedback)は、テキスト生成品質の複雑でニュアンスな特性を捉えるために用いられる。その結果,テキスト要約作業は,このプロセスの優れた候補として認識されている。本稿では,RLHFの優先合意が要約効果に与える影響について検討する。その結果,人間の好みをサンプリングすることで,(1)高い精度の報酬モデルが得られ,(2)取得した品質の特性が変化することがわかった。さらに,様々な選好合意で訓練された報酬モデルを使用する場合の下流世代の改善を示す。コントリビューションは、合成データセットの設計と、比較に基づくデータの品質差を考慮することの重要性に影響を及ぼす。

関連論文リスト

Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [55.65459867300319]
LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
論文参考訳（メタデータ） (2025-02-06T21:29:00Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Towards Comprehensive Preference Data Collection for Reward Modeling [15.495910034714187]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みの調整を容易にする。そこで本研究では,プロセスを4段階に分解し,好みデータ収集のためのフレームワークを提案する。この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
論文参考訳（メタデータ） (2024-06-24T09:40:39Z)
West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文参考訳（メタデータ） (2024-01-22T16:24:43Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Reward-Directed Conditional Diffusion: Provable Distribution Estimation and Reward Improvement [42.45888600367566]
Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
論文参考訳（メタデータ） (2023-07-13T20:20:40Z)
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文参考訳（メタデータ） (2022-10-10T11:05:21Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)
Self-Adversarial Learning with Comparative Discrimination for Text Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文参考訳（メタデータ） (2020-01-31T07:50:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。