論文の概要: MindFlow+: A Self-Evolving Agent for E-Commerce Customer Service
- arxiv url: http://arxiv.org/abs/2507.18884v1
- Date: Fri, 25 Jul 2025 02:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.794525
- Title: MindFlow+: A Self-Evolving Agent for E-Commerce Customer Service
- Title(参考訳): MindFlow+:Eコマース顧客サービスのためのセルフ進化エージェント
- Authors: Ming Gong, Xucheng Huang, Ziheng Xu, Vijayan K. Asari,
- Abstract要約: 自己進化型対話エージェントMindFlow+は、大規模な言語モデルと模倣学習とオフライン強化学習を組み合わせることで、ドメイン固有の振る舞いを学習する。
MindFlow+は、ツール拡張されたデモ構築と報酬条件付きデータモデリングという、学習をガイドする2つのデータ中心のメカニズムを導入している。
実世界のeコマースの会話の実験では、MindFlow+はコンテキストの関連性、柔軟性、タスクの正確性において、強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 22.012089343697767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality dialogue is crucial for e-commerce customer service, yet traditional intent-based systems struggle with dynamic, multi-turn interactions. We present MindFlow+, a self-evolving dialogue agent that learns domain-specific behavior by combining large language models (LLMs) with imitation learning and offline reinforcement learning (RL). MindFlow+ introduces two data-centric mechanisms to guide learning: tool-augmented demonstration construction, which exposes the model to knowledge-enhanced and agentic (ReAct-style) interactions for effective tool use; and reward-conditioned data modeling, which aligns responses with task-specific goals using reward signals. To evaluate the model's role in response generation, we introduce the AI Contribution Ratio, a novel metric quantifying AI involvement in dialogue. Experiments on real-world e-commerce conversations show that MindFlow+ outperforms strong baselines in contextual relevance, flexibility, and task accuracy. These results demonstrate the potential of combining LLMs tool reasoning, and reward-guided learning to build domain-specialized, context-aware dialogue systems.
- Abstract(参考訳): 高品質な対話はeコマース顧客サービスにとって不可欠だが、従来の意図に基づくシステムは動的でマルチターンなインタラクションに苦しむ。
我々は,大規模言語モデル(LLM)と模倣学習,オフライン強化学習(RL)を組み合わせることで,ドメイン固有の振る舞いを学習する自己進化型対話エージェントMindFlow+を提案する。
MindFlow+は学習をガイドする2つのデータ中心のメカニズムを紹介している。ツール強化されたデモ構築は、効果的なツール使用のための知識強化とエージェント(ReAct-style)インタラクションにモデルを公開し、報酬条件付きデータモデリングは、報酬信号を使用してタスク固有の目標に応答する。
応答生成におけるモデルの役割を評価するために,対話におけるAIの関与を定量化する新しい指標であるAI Contribution Ratioを導入する。
実世界のeコマースの会話の実験では、MindFlow+はコンテキストの関連性、柔軟性、タスクの正確性において、強いベースラインを上回ります。
これらの結果は、LLMツール推論と報酬誘導学習を組み合わせて、ドメイン特化・コンテキスト対応対話システムを構築する可能性を示している。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - CA-BERT: Leveraging Context Awareness for Enhanced Multi-Turn Chat Interaction [2.3178408584843906]
本稿では, この課題に対処するために, 変換器をベースとしたモデルである Context-Aware BERT (CA-BERT) を紹介する。
本稿では,チャット対話の特別なデータセットに焦点をあてた新しいトレーニング手法により,BERTの堅牢なアーキテクチャを適応させるCA-BERTの開発について述べる。
このモデルはコンテキスト要求を分類する能力に基づいて評価され、精度と効率の点でベースラインBERTモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-05T06:27:59Z) - A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。