論文の概要: Improving Neutral Point-of-View Generation with Data- and Parameter-Efficient RL
- arxiv url: http://arxiv.org/abs/2503.03654v2
- Date: Wed, 08 Oct 2025 12:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:19.98134
- Title: Improving Neutral Point-of-View Generation with Data- and Parameter-Efficient RL
- Title(参考訳): データとパラメータ効率のよいRLによるニュートラル視点生成の改善
- Authors: Jessica Hoffmann, Christiane Ahlheim, Zac Yu, Aria Walfrand, Jarvis Jin, Marie Tano, Ahmad Beirami, Erin van Liemt, Nithum Thain, Hakim Sidahmed, Lucas Dixon,
- Abstract要約: パラメータ効率強化学習(PE-RL)は,ニュートラルポイント・オブ・ビュー(NPOV)を用いたセンシティブなトピックに対する問合せに答える大規模言語モデル(LLM)の能力を向上させるための,極めて効果的な学習方法であることを示す。
PE-RLおよびLoRAファインタニング(ストロングベースライン)、SFTおよびRLHFを含む複数の強いベースラインを評価することにより、これを実証する。
PE-RLは、最強のベースライン(97.06%rightarrow 99.08%$)に比べて全体的なNPOVの品質を向上するだけでなく、十分な回答を分離するための鍵と認識される機能よりもはるかに高いスコアを得る。
- 参考スコア(独自算出の注目度): 16.029770877966182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper shows that parameter-efficient reinforcement learning (PE-RL) is a highly effective training regime to improve large language models' (LLMs) ability to answer queries on sensitive topics with a Neutral Point of View (NPOV), i.e. to provide significantly more informative, diverse and impartial answers. This is shown by evaluating PE-RL and multiple strong baselines-including LoRA finetuning (strongest baseline), SFT and RLHF. PE-RL not only improves on overall NPOV quality compared to the strongest baseline ($97.06\%\rightarrow 99.08\%$), but also scores much higher on features linguists identify as key to separating sufficient answers from "great'' answers ($60.25\%\rightarrow 85.21\%$ for presence of supportive details, $68.74\%\rightarrow 91.43\%$ for absence of oversimplification). A qualitative analysis corroborates this. Moreover, our evaluation also finds a key property of PE-RL for this task: unlike methods that update all parameters, it generalises out of topic. Finally, to enable further studies we also release the dataset, SHQ-NPOV, and provide a methodology to create such datasets through iterative rounds of human peer-critique and annotator training.
- Abstract(参考訳): パラメータ効率強化学習(PE-RL)は,ニュートラル・ポイント・オブ・ビュー(NPOV)を用いたセンシティブな話題の質問に回答する,大規模言語モデルのLLM(LLM)能力を向上させるための,極めて効果的な学習方法である。
PE-RLおよびLoRAファインタニング(ストロングベースライン)、SFTおよびRLHFを含む複数の強いベースラインを評価することにより、これを実証する。
PE-RLはNPOV全体の品質を最強のベースライン (97.06\%\rightarrow 99.08\%$) と比べて改善するだけでなく、言語学者が「偉大な」回答から十分な答えを分離する鍵と判断する機能 (60.25\%\rightarrow 85.21\%$) に対して、補助的な詳細が存在する場合、68.74\%\rightarrow 91.43\%$) よりもはるかに高いスコアを得ている。
定性的な分析がこれを裏付ける。
さらに,この課題に対するPE-RLの重要な特性として,全てのパラメータを更新する手法とは異なり,トピックから一般化する。
最後に、さらなる研究を可能にするために、データセットであるSHQ-NPOVもリリースし、人間のピアクリティカルとアノテータトレーニングの反復ラウンドを通じてそのようなデータセットを作成するための方法論を提供します。
関連論文リスト
- LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - On Feature Learning in the Presence of Spurious Correlations [45.86963293019703]
得られた特徴表現の質は,提案手法以外の設計決定に大きく影響されていることを示す。
我々は,人気のウォーターバード,セレブの髪の色予測,WILDS-FMOW問題に関する文献で報告された最良の結果を大幅に改善した。
論文 参考訳(メタデータ) (2022-10-20T16:10:28Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。