論文の概要: RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
- arxiv url: http://arxiv.org/abs/2511.07070v1
- Date: Mon, 10 Nov 2025 13:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.258074
- Title: RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
- Title(参考訳): RedOne 2.0: ソーシャルネットワークサービスにおけるドメイン固有のLLMポストトレーニングの再考
- Authors: Fei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao,
- Abstract要約: ソーシャルネットワークサービス(SNS)は、大規模言語モデル(LLM)に固有の課題をもたらす
我々は、高速で安定した適応のために設計された、プログレッシブでRL優先のポストトレーニングパラダイムで訓練されたSNS指向のLLMであるRedOne 2.0を紹介する。
- 参考スコア(独自算出の注目度): 25.000215454344126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a key medium for human interaction and information exchange, social networking services (SNS) pose unique challenges for large language models (LLMs): heterogeneous workloads, fast-shifting norms and slang, and multilingual, culturally diverse corpora that induce sharp distribution shift. Supervised fine-tuning (SFT) can specialize models but often triggers a ``seesaw'' between in-distribution gains and out-of-distribution robustness, especially for smaller models. To address these challenges, we introduce RedOne 2.0, an SNS-oriented LLM trained with a progressive, RL-prioritized post-training paradigm designed for rapid and stable adaptation. The pipeline consist in three stages: (1) Exploratory Learning on curated SNS corpora to establish initial alignment and identify systematic weaknesses; (2) Targeted Fine-Tuning that selectively applies SFT to the diagnosed gaps while mixing a small fraction of general data to mitigate forgetting; and (3) Refinement Learning that re-applies RL with SNS-centric signals to consolidate improvements and harmonize trade-offs across tasks. Across various tasks spanning three categories, our 4B scale model delivers an average improvements about 2.41 over the 7B sub-optimal baseline. Additionally, RedOne 2.0 achieves average performance lift about 8.74 from the base model with less than half the data required by SFT-centric method RedOne, evidencing superior data efficiency and stability at compact scales. Overall, RedOne 2.0 establishes a competitive, cost-effective baseline for domain-specific LLMs in SNS scenario, advancing capability without sacrificing robustness.
- Abstract(参考訳): ソーシャルネットワーキングサービス(SNS)は、ヒューマンインタラクションと情報交換の重要な媒体として、異種ワークロード、高速シフトノルムとスラング、多言語、文化的に多様なコーパスなど、大きな言語モデル(LLM)に固有の課題を提起している。
Supervised Fine-tuning (SFT) はモデルに特化できるが、特に小さなモデルでは、分布内ゲインと分布外ロバスト性の間に 'seesaw' をトリガーすることが多い。
これらの課題に対処するために、我々は、迅速で安定した適応のために設計された、プログレッシブでRL優先のポストトレーニングパラダイムで訓練されたSNS指向のLLMであるRedOne 2.0を紹介した。
パイプラインは,(1)初期整合性を確立し,系統的な弱点を特定するためのSNSコーパスの探索学習,(2)診断されたギャップにSFTを選択的に適用し,少量の一般データを混合して忘れを和らげる学習,(3)RLをSNS中心の信号に再適用し,改善とタスク間のトレードオフを調和させるリファインメント学習の3段階からなる。
3つのカテゴリにまたがるさまざまなタスクに対して、我々の4Bスケールモデルは、7Bサブ最適ベースラインに対して平均2.41の改善を提供します。
さらに、RedOne 2.0は、SFT中心の方法であるRedOneに必要なデータの半分以下でベースモデルから平均8.74までのパフォーマンス向上を実現し、コンパクトスケールで優れたデータ効率と安定性を期待できる。
全体として、RedOne 2.0はSNSシナリオにおけるドメイン固有のLLMの競争力とコスト効率のよいベースラインを確立し、堅牢性を犠牲にすることなく能力を向上させる。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services [37.76677833724781]
ソーシャルネットワーキングサービス(SNS)のためのドメイン固有言語モデルRedOneを紹介する。
RedOneは、継続事前トレーニング、教師付き微調整、優先度最適化からなる3段階のトレーニング戦略によって開発された。
8つの主要なSNSタスクで平均14.02%、SNSバイリンガル評価ベンチマークで7.56%の改善が達成されている。
論文 参考訳(メタデータ) (2025-07-13T02:22:59Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Analytic Personalized Federated Meta-Learning [15.1961498951975]
AFL(Analytic Federated Learning)は、グローバルモデルを1ステップで更新し、閉形式最小二乗(LS)ソリューションでトレーニングを加速するために設計された拡張勾配自由学習(FL)パラダイムである。
本稿では,各レイヤをLS問題としてモデル化し,レイヤワイズトレーニング手法を設計するFedACnnwiseフレームワークを提案する。
グローバルモデルと個々のデータ劣化の間のギャップを埋める局所的な目的を解析的に解決することで、クライアント毎にパーソナライズされたモデルを生成する。
論文 参考訳(メタデータ) (2025-02-10T11:27:54Z) - Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent
Deep Reinforcement Learning [6.523367518762879]
ネットワークスライシングにより、オペレータは共通の物理インフラ上で多様なアプリケーションを効率的にサポートできる。
ネットワーク展開の恒常的に増大する密度化は、複雑で非自明な細胞間干渉を引き起こす。
複数の深層強化学習(DRL)エージェントを用いたDIRPアルゴリズムを開発し,各セルの資源分配を協調的に最適化する。
論文 参考訳(メタデータ) (2023-06-20T14:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。