論文の概要: Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs
- arxiv url: http://arxiv.org/abs/2510.25441v1
- Date: Wed, 29 Oct 2025 12:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.497502
- Title: Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs
- Title(参考訳): オフラインログからプロアクティブLSMを学習し、デプロイする
- Authors: Fei Wei, Daoyuan Chen, Ce Wang, Yilun Huang, Yushuo Chen, Xuchen Pan, Yaliang Li, Bolin Ding,
- Abstract要約: textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
- 参考スコア(独自算出の注目度): 72.08224879435762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel as passive responders, but teaching them to be proactive, goal-oriented partners, a critical capability in high-stakes domains, remains a major challenge. Current paradigms either myopically optimize single-turn attributes or rely on brittle, high-cost user simulators, creating a persistent ``reality gap''. To bridge this gap, we introduce \texttt{Learn-to-Ask}, a general, simulator-free framework for learning and deploying proactive dialogue agents \textit{directly from offline expert data}, bypassing the need to model complex user dynamics. Our key insight is to reframe the offline policy learning problem by leveraging the \textbf{observed future} of each expert trajectory. This allows us to infer a dense, turn-by-turn reward signal grounded in the expert's revealed strategy, decomposing the intractable long-horizon problem into a series of supervised learning tasks, and training a policy to output a structured \texttt{(action, state_assessment)} tuple, governing both \textbf{what to ask} and, crucially, \textbf{when to stop}. To ensure reward fidelity, our Automated Grader Calibration pipeline systematically purges noise from the LLM-based reward model with minimal human supervision. Empirically, we demonstrate the efficacy of \texttt{Learn-to-Ask} in a real-world medical dataset, using LLMs of varying sizes up to 32B. Our approach culminates in the successful deployment of LLMs into a live, large-scale online AI service. In rigorous in-house evaluations, our model was launched and achieved performance even superior to human experts, proving our framework's ability to translate offline data into tangible, real-world impact. We hope this work provides a practical and economically viable blueprint for transforming passive LLMs into proactive, goal-oriented LLM applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は受動的応答者として優れていますが、積極的に目標指向のパートナであることを教えています。
現在のパラダイムは、ミオプティックに単一ターン属性を最適化するか、不安定で高コストなユーザシミュレータに依存し、永続的な‘現実のギャップ’を作り出す。
このギャップを埋めるために、我々は、複雑なユーザダイナミクスをモデル化する必要をなくし、プロアクティブな対話エージェント \textit{directly from offline expert data} を学習およびデプロイするための一般的なシミュレータフリーフレームワークである \textt{Learn-to-Ask} を紹介した。
我々の重要な洞察は、各専門家の軌跡の‘textbf{observed future’を活用することによって、オフラインのポリシー学習問題を再構築することである。
これにより、専門家が明らかにした戦略に根ざした高密度でターンバイターンの報奨信号を推測し、難解な長距離問題を一連の教師付き学習タスクに分解し、構造化された \texttt{(action, state_assessment") タプルを出力するポリシーを訓練し、 \textbf{what to ask} と決定的に \textbf{when to Stop} の両方を制御できる。
報奨の忠実性を確保するため、私たちのAutomated Grader Calibrationパイプラインは、人間の監督を最小限に抑えたLLMベースの報奨モデルからノイズを体系的に浄化する。
実世界の医療データセットにおいて, 最大32BまでのLLMを用いて, texttt{Learn-to-Ask}の有効性を実証した。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
厳格な社内評価では、私たちのモデルはローンチされ、人間の専門家よりも優れたパフォーマンスを達成しました。
この研究は、受動LDMを積極的にゴール指向LSMアプリケーションに変換するための実用的で経済的に実行可能な青写真を提供してくれることを願っている。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Agents Are All You Need for LLM Unlearning [9.934258340998047]
textttALUは、LLMアンラーニングに対するマルチエージェント、リトレインフリー、モデルに依存しないアプローチである。
textttALUは、最も堅牢な推論時LLMアンラーニングフレームワークとして一貫して注目されている。
textttALUは最大1000の未学習目標に基づいて評価され、これまで提案された全てのLLM未学習手法の評価範囲を超えている。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。