論文の概要: Agent-in-the-Loop: A Data Flywheel for Continuous Improvement in LLM-based Customer Support
- arxiv url: http://arxiv.org/abs/2510.06674v1
- Date: Wed, 08 Oct 2025 05:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.323185
- Title: Agent-in-the-Loop: A Data Flywheel for Continuous Improvement in LLM-based Customer Support
- Title(参考訳): Agent-in-the-Loop: LLMベースの顧客サポートの継続的改善のためのデータフライホイール
- Authors: Cen, Zhao, Tiantian Zhang, Hanchen Su, Yufeng, Zhang, Shaowei Su, Mingzhi Xu, Yu, Liu, Wei Han, Jeremy Werner, Claire Na Cheng, Yashar Mehdad,
- Abstract要約: LLMベースのカスタマーサポートシステムを反復的に改善するための連続データフライホイールを実装したAgent-in-theLoopフレームワークを提案する。
バッチアノテーションに依存する通常のオフラインアプローチとは異なり、AITLは4つの重要なアノテーションを実際の顧客操作に直接統合する。
- 参考スコア(独自算出の注目度): 29.08671282957629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an Agent-in-the-Loop (AITL) framework that implements a continuous data flywheel for iteratively improving an LLM-based customer support system. Unlike standard offline approaches that rely on batch annotations, AITL integrates four key types of annotations directly into live customer operations: (1) pairwise response preferences, (2) agent adoption and rationales, (3) knowledge relevance checks, and (4) identification of missing knowledge. These feedback signals seamlessly feed back into models' updates, reducing retraining cycles from months to weeks. Our production pilot involving US-based customer support agents demonstrated significant improvements in retrieval accuracy (+11.7% recall@75, +14.8% precision@8), generation quality (+8.4% helpfulness) and agent adoption rates (+4.5%). These results underscore the effectiveness of embedding human feedback loops directly into operational workflows to continuously refine LLM-based customer support system.
- Abstract(参考訳): LLMベースのカスタマーサポートシステムを反復的に改善するための連続データフライホイールを実装したAITL(Agent-in-the-Loop)フレームワークを提案する。
バッチアノテーションに依存する標準的なオフラインアプローチとは異なり、AITLは、(1)ペアワイズ対応の好み、(2)エージェントの採用と合理性、(3)知識関連チェック、(4)行方不明の知識の識別の4つの重要なアノテーションを、ライブ顧客操作に直接統合する。
これらのフィードバック信号はモデルの更新にシームレスにフィードバックし、再トレーニングサイクルを数ヶ月から数週間に短縮する。
米国の顧客サポートエージェントを含む生産パイロットは、検索精度(+11.7%リコール@75,+14.8%精度@8)、生成品質(+8.4%有用性)、エージェント採用率(+4.5%)を著しく改善した。
これらの結果は、人間のフィードバックループを直接運用ワークフローに埋め込むことで、LCMベースの顧客サポートシステムを継続的に洗練することの有効性を裏付けるものである。
関連論文リスト
- Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.254037571895404]
大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。
本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。
本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
論文 参考訳(メタデータ) (2025-08-03T01:56:03Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。