論文の概要: WeChat-YATT: A Scalable, Simple, Efficient, and Production Ready Training Library
- arxiv url: http://arxiv.org/abs/2508.07970v3
- Date: Mon, 18 Aug 2025 03:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.879041
- Title: WeChat-YATT: A Scalable, Simple, Efficient, and Production Ready Training Library
- Title(参考訳): WeChat-YATT: スケーラブルで、シンプルで、効率的で、生産可能なトレーニングライブラリ
- Authors: Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Tingfeng Xian, Haoqiang Hong, Boqi Chen, Hongtao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao, Jiatao Xu,
- Abstract要約: WeChat-YATT Yet Another Transformer Trainer (YATT)は、シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである。
YATTは、複雑なRLHFの柔軟かつ効率的なオーケストレーションを可能にする並列コントローラプログラミングモデルを備えている。
WeChat-YATTを様々な実験シナリオで評価し、最先端のRLHFトレーニングフレームワークよりも大幅にスループットが向上したことを示す。
- 参考スコア(独自算出の注目度): 34.5103280294468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent paradigm for training large language models and multimodal systems. Despite the notable advances enabled by existing RLHF training frameworks, significant challenges remain to scale to complex multimodal workflows and adapt to dynamic workloads. In particular, current systems often encounter limitations related to controller scalability when managing large models, as well as inefficiencies in orchestrating intricate RLHF pipelines, especially in scenarios that require dynamic sampling and resource allocation. In this paper, we introduce WeChat-YATT Yet Another Transformer Trainer in WeChat, a simple, scalable, and balanced RLHF training framework specifically designed to address these challenges. WeChat-YATT features a parallel controller programming model that enables flexible and efficient orchestration of complex RLHF workflows, effectively mitigating bottlenecks associated with centralized controller architectures and facilitating scalability in large-scale data scenarios. In addition, we propose a dynamic placement schema that adaptively partitions computational resources and schedules workloads, thereby significantly reducing hardware idle time and improving GPU utilization under variable training conditions. We evaluate WeChat-YATT across diverse experimental scenarios, demonstrating its substantial throughput improvements over state-of-the-art RLHF training frameworks. Furthermore, WeChat-YATT has been successfully deployed to train models that support WeChat product features for a large-scale user base, underscoring its effectiveness and robustness in real-world applications. We have made WeChat-YATT publicly available at https://www.github.com/tencent/WeChat-YATT.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルやマルチモーダルシステムのトレーニングにおいて、顕著なパラダイムとして登場した。
既存のRLHFトレーニングフレームワークによって実現された顕著な進歩にもかかわらず、複雑なマルチモーダルワークフローにスケールアップし、動的ワークロードに適応するという大きな課題は依然として残っている。
特に、現在のシステムは、大規模なモデルを管理する際のコントローラのスケーラビリティに関する制限や、複雑なRLHFパイプラインのオーケストレーションにおける非効率性、特に動的サンプリングとリソース割り当てを必要とするシナリオに直面することが多い。
本稿では,WeChat-YATT Yet Another Transformer TrainerをWeChatで紹介する。
WeChat-YATTは、複雑なRLHFワークフローの柔軟かつ効率的なオーケストレーションを可能にし、集中型コントローラアーキテクチャに関連するボトルネックを効果的に軽減し、大規模データシナリオでのスケーラビリティを促進する、並列コントローラプログラミングモデルを備えている。
さらに、計算資源を適応的に分割し、ワークロードをスケジュールする動的配置スキーマを提案し、ハードウェアアイドル時間を著しく短縮し、可変トレーニング条件下でのGPU利用を改善する。
WeChat-YATTを様々な実験シナリオで評価し、最先端のRLHFトレーニングフレームワークよりも大幅にスループットが向上したことを示す。
さらに、WeChat-YATTは、大規模なユーザベースでWeChat製品機能をサポートするモデルのトレーニングに成功しており、実際のアプリケーションにおけるその有効性と堅牢性を強調している。
WeChat-YATTをhttps://www.github.com/tencent/WeChat-YATTで公開しました。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - G-Core: A Simple, Scalable and Balanced RLHF Trainer [35.65011046623611]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。
これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
論文 参考訳(メタデータ) (2025-07-30T15:55:08Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - Multi-fidelity Reinforcement Learning Control for Complex Dynamical Systems [42.2790464348673]
複雑なシステムの不安定性を制御するための多要素強化学習フレームワークを提案する。
提案手法が物理学における2つの複雑な力学に与える影響を実証する。
論文 参考訳(メタデータ) (2025-04-08T00:50:15Z) - Communication-Control Codesign for Large-Scale Wireless Networked Control Systems [80.30532872347668]
無線ネットワーク制御システム(Wireless Networked Control Systems, WNCS)は、ドローン群や自律ロボットなどのアプリケーションにおいて柔軟な制御を可能にする産業用4.0に必須である。
本稿では,マルチ状態マルコフブロックフェーディングチャネル上で限られた無線リソースを共有するセンサやアクチュエータを用いて,複数の制御ループ間の相関ダイナミクスを捕捉する実用的WNCSモデルを提案する。
本研究では,ハイブリッドな動作空間を効率的に処理し,通信制御の相関関係を捉え,疎域変数や浮動小数点制御の入力に拘わらず堅牢なトレーニングを確実にするDeep Reinforcement Learning (DRL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-15T06:28:21Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。