論文の概要: Aligning Large Language Models via Fully Self-Synthetic Data
- arxiv url: http://arxiv.org/abs/2510.06652v1
- Date: Wed, 08 Oct 2025 05:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.306692
- Title: Aligning Large Language Models via Fully Self-Synthetic Data
- Title(参考訳): 完全自己合成データによる大規模言語モデルの調整
- Authors: Shangjian Yin, Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Yu Meng,
- Abstract要約: 大規模な言語モデル(LLM)に対する人間からのフィードバック(RLHF)からの伝統的な強化学習は、高価な人間の注釈付きデータセットに依存している。
本研究では,LLMアライメントのための完全自己合成フレームワークであるSelf-Alignment Optimization (SAO)を紹介する。
実験によると、AlpacaEval2.0のような標準ベンチマークでは、SAOがモデルのチャット機能を効果的に強化している。
- 参考スコア(独自算出の注目度): 20.05693955243206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning from human feedback (RLHF) for large language models (LLMs) relies on expensive human-annotated datasets, while Reinforcement Learning from AI Feedback (RLAIF) also incurs significant costs, requiring the collection of diverse prompts and corresponding responses, often necessitating external reward models or proprietary models like GPT-4 to annotate preference pairs. In this work, we introduce Self-Alignment Optimization (SAO), a fully self-synthetic framework for LLM alignment, where all training data, including prompts (i.e., user queries), responses, and preferences, are generated by the model itself. Specifically, SAO first instructs the LLM to engage in persona role-play and generate diverse prompts and responses, which are then self-evaluated for preference optimization. Extensive experiments demonstrate that SAO effectively enhances the model's chat capabilities on standard benchmarks like AlpacaEval~2.0, while maintaining strong performance on downstream objective tasks (e.g., question-answering, math reasoning). Our work provides a practical solution for self-improvement in aligning LLMs, and the code for reproducing our results is available at: https://github.com/SJY8460/SAO.
- Abstract(参考訳): 大規模な言語モデル(LLM)のための人間フィードバック(RLHF)からの伝統的な強化学習は、高価な人間アノテーション付きデータセットに依存しているのに対して、AIフィードバックからの強化学習(RLAIF)もまた、さまざまなプロンプトと対応する応答の収集を必要とし、しばしば外部報酬モデルやGPT-4のようなプロプライエタリモデルを必要とするため、かなりのコストがかかる。
本研究では,LLMアライメントのための完全自己合成フレームワークであるSelf-Alignment Optimization (SAO)を導入する。
特に、SAOはまずLLMにペルソナロールプレイを指示し、多様なプロンプトとレスポンスを生成し、その後、好みの最適化のために自己評価する。
大規模な実験によると、SAOはAlpacaEval~2.0のような標準ベンチマークでモデルのチャット機能を効果的に強化し、下流の目的タスク(例えば、質問応答、数学推論)で強力なパフォーマンスを維持している。
我々の研究は、LCMの調整における自己改善のための実践的なソリューションを提供しており、その結果を再現するためのコードは、https://github.com/SJY8460/SAOで利用可能です。
関連論文リスト
- Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。