論文の概要: CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production
- arxiv url: http://arxiv.org/abs/2603.01973v1
- Date: Mon, 02 Mar 2026 15:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.93764
- Title: CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production
- Title(参考訳): characterFlywheel: 生産におけるエンゲージとステアブルLLMの反復的改善
- Authors: Yixin Nie, Lin Guan, Zhongyao Ma, Anchit Gupta, Yipin Zhou, Xiao Li, Zhengping Zhou, Raymond Zeng, Gelin Zhou, Shigan Chu, Ajay Thampi, Wancen Mu, Nathan Shuster, Ketong Wang, Lin Chen, Jason Brewer, Derek Hao Hu, Alexander McCauley, Jason Weston, Sem Park, Na Zhang, Kevin Tang,
- Abstract要約: CharacterFlywheelは、大規模言語モデル(LLM)を生産的なソーシャルチャットアプリケーションで改善するための反復的なプロセスである。
内部および外部のリアルタイムトラフィックからのデータを使用して、15世代にわたってモデルを洗練しました。
7日間のA/Bテストを行い、一貫したエンゲージメントの改善を示した。
- 参考スコア(独自算出の注目度): 52.85500933801205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.
- Abstract(参考訳): このレポートでは、Instagram、WhatsApp、Messengerを含むプロダクションソーシャルチャットアプリケーションにおいて、大きな言語モデル(LLM)を改善するための反復的なフライホイールプロセスである characterFlywheelを提示する。
LLaMA 3.1から15世代にわたって、内部および外部のリアルタイムトラフィックのデータを使用してモデルを洗練しました。
2024年7月から2025年4月までの継続的展開を通じて、7日間のA/Bテストを行い、一貫したエンゲージメント改善を示した。
また,59.2%から84.8%に増加し,26.6%から5.8%に低下した。
本稿では、データキュレーション、報酬モデリング、エンゲージメントメトリクスのランドスケープの推定と補間、教師付き微調整(SFT)、強化学習(RL)、オフラインおよびオンライン両方の評価を統合し、各最適化ステップにおける信頼性の高い進捗を保証する。
また, 大規模生産動態の過度に適合する手法についても論じる。
これらの貢献は、何百万人もの利用者に奉仕する社会アプリケーションにおけるLSMの科学的厳格さと理解を促進する。
関連論文リスト
- How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - Agent-in-the-Loop: A Data Flywheel for Continuous Improvement in LLM-based Customer Support [8.580317550913028]
LLMベースのカスタマーサポートシステムを反復的に改善するための連続データフライホイールを実装したAgent-in-theLoopフレームワークを提案する。
バッチアノテーションに依存する通常のオフラインアプローチとは異なり、AITLは4つの重要なアノテーションを実際の顧客操作に直接統合する。
論文 参考訳(メタデータ) (2025-10-08T05:57:04Z) - A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models [53.31664844941449]
ProActive Self-Refinement (PASR)は、大規模言語モデル(LLM)を改善する新しい方法である。
反応全体を再生する手法とは異なり、PASRはモデルの内部状態と進化コンテキストに基づいて、いつ、どのように精製するかを積極的に決定する。
PASRの有効性を評価するために,多種多様な10のタスクについて広範囲に実験を行った。
論文 参考訳(メタデータ) (2025-08-18T13:07:21Z) - Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models [1.96238419451815]
大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。
我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。
GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
論文 参考訳(メタデータ) (2025-04-25T06:48:55Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation [20.41379322900742]
基礎的な大規模オートラタモデルのファミリーであるFLAMeを紹介する。
FLAMeは、100以上の品質評価タスクの大規模で多様なコレクションに基づいて訓練されています。
FLAMeは下流の微調整のための強力な出発点としても機能することを示す。
論文 参考訳(メタデータ) (2024-07-15T15:33:45Z) - Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [69.6913064185993]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。