論文の概要: Improving Neutral Point of View Text Generation through Parameter-Efficient Reinforcement Learning and a Small-Scale High-Quality Dataset
- arxiv url: http://arxiv.org/abs/2503.03654v1
- Date: Wed, 05 Mar 2025 16:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:55.376546
- Title: Improving Neutral Point of View Text Generation through Parameter-Efficient Reinforcement Learning and a Small-Scale High-Quality Dataset
- Title(参考訳): パラメータ効率の良い強化学習と小型高品質データセットによる視点テキスト生成の中立点改善
- Authors: Jessica Hoffmann, Christiane Ahlheim, Zac Yu, Aria Walfrand, Jarvis Jin, Marie Tano, Ahmad Beirami, Erin van Liemt, Nithum Thain, Hakim Sidahmed, Lucas Dixon,
- Abstract要約: ニュートラル・ポイント・オブ・ビュー(NPOV)を用いたセンシティブな話題に対する質問に答える「LLM」機能を改善するためのデータセットの構築と訓練方法の評価について述べる。
データセットであるSHQ-NPOVデータセットは、300の高品質な人書き四重項で構成されており、センシティブなトピックに関するクエリ、回答、NPOVレーティング、および様々な視点を解明するソーステキストへのリンクである。
- 参考スコア(独自算出の注目度): 16.733568245000246
- License:
- Abstract: This paper describes the construction of a dataset and the evaluation of training methods to improve generative large language models' (LLMs) ability to answer queries on sensitive topics with a Neutral Point of View (NPOV), i.e., to provide significantly more informative, diverse and impartial answers. The dataset, the SHQ-NPOV dataset, comprises 300 high-quality, human-written quadruplets: a query on a sensitive topic, an answer, an NPOV rating, and a set of links to source texts elaborating the various points of view. The first key contribution of this paper is a new methodology to create such datasets through iterative rounds of human peer-critique and annotator training, which we release alongside the dataset. The second key contribution is the identification of a highly effective training regime for parameter-efficient reinforcement learning (PE-RL) to improve NPOV generation. We compare and extensively evaluate PE-RL and multiple baselines-including LoRA finetuning (a strong baseline), SFT and RLHF. PE-RL not only improves on overall NPOV quality compared to the strongest baseline ($97.06\%\rightarrow 99.08\%$), but also scores much higher on features linguists identify as key to separating good answers from the best answers ($60.25\%\rightarrow 85.21\%$ for presence of supportive details, $68.74\%\rightarrow 91.43\%$ for absence of oversimplification). A qualitative analysis corroborates this. Finally, our evaluation finds no statistical differences between results on topics that appear in the training dataset and those on separated evaluation topics, which provides strong evidence that our approach to training PE-RL exhibits very effective out of topic generalization.
- Abstract(参考訳): 本稿では,ニュートラル・ポイント・オブ・ビュー(NPOV)を用いたセンシティブな話題の質問に回答する,生成的大言語モデル(LLM)能力を向上させるためのデータセットの構築と訓練方法の評価について述べる。
データセットであるSHQ-NPOVデータセットは、300の高品質な人書き四重項で構成されており、センシティブなトピックに関するクエリ、回答、NPOVレーティング、および様々な視点を解明するソーステキストへのリンクである。
この論文の最初の重要な貢献は、人間のピア・クリティークとアノテータ・トレーニングの反復的なラウンドを通じてそのようなデータセットを作成するための新しい方法論であり、データセットと一緒にリリースする。
第2の鍵となる貢献は、パラメータ効率強化学習(PE-RL)において、NPOV生成を改善するための非常に効果的なトレーニング体制の同定である。
PE-RLとLoRAファインタニング(強力なベースライン),SFT,RLHFを含む複数のベースラインを比較し,広範囲に評価した。
PE-RLはNPOV全体の品質を最強のベースライン (97.06\%\rightarrow 99.08\%$) と比べて改善するだけでなく、言語学者が最高の答えから良い答えを分ける鍵として識別する機能 (60.25\%\rightarrow 85.21\%$) 、サポート的な詳細が存在する場合、68.74\%\rightarrow 91.43\%$) よりもはるかに高いスコアを得ている。
定性的な分析がこれを裏付ける。
最後に,トレーニングデータセットに現れるトピックと,分離された評価トピックに現れるトピックの統計的差異は認められず,PE-RLのトレーニングアプローチがトピックの一般化から非常に有効であることを示す強力な証拠となる。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - On Feature Learning in the Presence of Spurious Correlations [45.86963293019703]
得られた特徴表現の質は,提案手法以外の設計決定に大きく影響されていることを示す。
我々は,人気のウォーターバード,セレブの髪の色予測,WILDS-FMOW問題に関する文献で報告された最良の結果を大幅に改善した。
論文 参考訳(メタデータ) (2022-10-20T16:10:28Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。