Fugu-MT 論文翻訳(概要): Progressively Selective Label Enhancement for Language Model Alignment

論文の概要: Progressively Selective Label Enhancement for Language Model Alignment

arxiv url: http://arxiv.org/abs/2408.02599v1
Date: Mon, 5 Aug 2024 16:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 13:07:17.377801
Title: Progressively Selective Label Enhancement for Language Model Alignment
Title（参考訳）: 言語モデルアライメントのためのプログレッシブ選択ラベル強調
Authors: Biao Liu, Ning Xu, Xin Geng,
Abstract要約: 本稿では,言語モデルアライメントのためのプログレッシブなラベル拡張を提案する。このフレームワークは、アウトプットを人間の期待と一致させる原則をモデルに導くことによって、生成されたすべてのデータを完全に活用する。複数のデータセットに対する実験結果から,既存の言語モデルアライメント手法と比較してPSLEの有効性が示された。
参考スコア（独自算出の注目度）: 42.01694160556464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models have demonstrated impressive capabilities in various language tasks but may produce content that misaligns with human expectations, raising ethical and legal concerns. Therefore, it is important to explore the limitations and implement restrictions on the models to ensure safety and compliance, with Reinforcement Learning from Human Feedback (RLHF) being the primary method. Due to challenges in stability and scalability with the RLHF stages, researchers are exploring alternative methods to achieve effects comparable to those of RLHF. However, these methods often depend on large high-quality datasets and inefficiently utilize generated data. To deal with this problem, we propose PSLE, i.e., Progressively Selective Label Enhancement for Language Model Alignment, a framework that fully utilizes all generated data by guiding the model with principles to align outputs with human expectations. Using a dynamically updated threshold, our approach ensures efficient data utilization by incorporating all generated responses and weighting them based on their corresponding reward scores. Experimental results on multiple datasets demonstrate the effectiveness of PSLE compared to existing language model alignment methods.
Abstract（参考訳）: 大規模言語モデルは、様々な言語タスクにおいて印象的な能力を示してきたが、人間の期待に反するコンテンツを生成し、倫理的および法的懸念を提起する可能性がある。そのため,人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)が第一の手法である。 RLHFのステージにおける安定性とスケーラビリティの課題のため、研究者はRLHFのステージに匹敵する効果を達成するための代替手法を模索している。しかし、これらの手法は、しばしば大きな高品質なデータセットに依存し、非効率に生成されたデータを利用する。この問題に対処するため,PSLE(Progressively Selective Label Enhancement for Language Model Alignment)を提案する。動的に更新されたしきい値を用いて、本手法は、生成された全ての応答を組み込んで、対応する報酬スコアに基づいて重み付けすることで、効率的なデータ利用を実現する。複数のデータセットに対する実験結果から,既存の言語モデルアライメント手法と比較してPSLEの有効性が示された。

関連論文リスト

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。 C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文参考訳（メタデータ） (2025-07-22T12:27:08Z)
Auto-Formulating Dynamic Programming Problems with Large Language Models [4.693833469789685]
DP-Benchは、幅広い教科書レベルのDP問題を網羅し、体系的な評価を可能にする最初のベンチマークである。 DPLMの有効性の中心はDualReflectです。DualReflectは、限られた初期例からトレーニングデータをスケールアップするために設計された、新しい合成データ生成パイプラインです。この結果から, 多様な定式化を導入するための大規模化において, 後方生成は強力な正当性を保証するために, 低データ体制で好まれることが明らかとなった。
論文参考訳（メタデータ） (2025-07-15T21:09:43Z)
A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文参考訳（メタデータ） (2025-04-07T11:34:48Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Latent mixed-effect models for high-dimensional longitudinal data [6.103940626659986]
LMM-VAEは,長手データに対するスケーラブルで解釈可能で識別可能なモデルである。我々は,GPに基づく手法と理論的な関係を強調し,この手法の統一的な枠組みを提供する。
論文参考訳（メタデータ） (2024-09-17T09:16:38Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Semi-supervised Relation Extraction via Data Augmentation and Consistency-training [2.2209333405427585]
半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
論文参考訳（メタデータ） (2023-06-16T19:45:42Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。