論文の概要: MemOrb: A Plug-and-Play Verbal-Reinforcement Memory Layer for E-Commerce Customer Service
- arxiv url: http://arxiv.org/abs/2509.18713v1
- Date: Tue, 23 Sep 2025 06:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.737779
- Title: MemOrb: A Plug-and-Play Verbal-Reinforcement Memory Layer for E-Commerce Customer Service
- Title(参考訳): MemOrb:Eコマース顧客サービスのためのプラグイン・アンド・プレイのバーバル強化メモリレイヤ
- Authors: Yizhe Huang, Yang Liu, Ruiyu Zhao, Xiaolong Zhong, Xingming Yue, Ling Jiang,
- Abstract要約: 大規模言語モデルベースのエージェントは、顧客サービスにますますデプロイされています。
セッションを横切ることを忘れたり、エラーを繰り返したり、継続的な自己改善のメカニズムを欠いていることが多い。
MemOrbは、マルチターン相互作用をコンパクトな戦略反射に蒸留する軽量な言語強化記憶層である。
- 参考スコア(独自算出の注目度): 9.639654920563496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model-based agents(LLM-based agents) are increasingly deployed in customer service, yet they often forget across sessions, repeat errors, and lack mechanisms for continual self-improvement. This makes them unreliable in dynamic settings where stability and consistency are critical. To better evaluate these properties, we emphasize two indicators: task success rate as a measure of overall effectiveness, and consistency metrics such as Pass$^k$ to capture reliability across multiple trials. To address the limitations of existing approaches, we propose MemOrb, a lightweight and plug-and-play verbal reinforcement memory layer that distills multi-turn interactions into compact strategy reflections. These reflections are stored in a shared memory bank and retrieved to guide decision-making, without requiring any fine-tuning. Experiments show that MemOrb significantly improves both success rate and stability, achieving up to a 63 percentage-point gain in multi-turn success rate and delivering more consistent performance across repeated trials. Our results demonstrate that structured reflection is a powerful mechanism for enhancing long-term reliability of frozen LLM agents in customer service scenarios.
- Abstract(参考訳): 大規模言語モデルベースのエージェント(LLMベースのエージェント)は、顧客サービスにますますデプロイされているが、セッションを行き来し、繰り返しエラーを発生させ、継続的な自己改善のメカニズムを欠いていることが多い。
これにより、安定性と一貫性が不可欠である動的な設定では信頼性が低下する。
これらの特性をよりよく評価するために、全体的な有効性の尺度としてのタスク成功率と、複数の試行で信頼性を捉えるためにPass$^k$のような一貫性指標の2つを強調した。
既存の手法の限界に対処するために,マルチターン相互作用をコンパクトな戦略反射に蒸留する,軽量でプラグアンドプレイな言語強化メモリ層であるMemOrbを提案する。
これらのリフレクションは共有メモリバンクに格納され、微調整を必要とせず、意思決定のガイドとして検索される。
実験により、MemOrbは成功率と安定性の両方を著しく改善し、マルチターン成功率において最大63ポイントの上昇を達成し、繰り返し試行を通してより一貫したパフォーマンスを提供することが示された。
以上の結果から, 構造化リフレクションは, 顧客サービスシナリオにおける凍結LDMエージェントの長期信頼性を高めるための強力なメカニズムであることが示唆された。
関連論文リスト
- SI-FACT: Mitigating Knowledge Conflict via Self-Improving Faithfulness-Aware Contrastive Tuning [0.0]
大規模言語モデルは、知識の衝突により、知識集約的なタスクにおいて不誠実な応答を生成することが多い。
このフレームワークは自己指示機構を使用して、ベースLLMが高品質なコントラスト学習データを自動生成することを可能にする。
知識衝突評価ベンチマークのECARE KREとCOSE KREの実験では、Llama3 8Bに基づくSI FACTモデルでは、最高のベースライン法よりもコンテキストリコール率を6.2%改善している。
論文 参考訳(メタデータ) (2025-09-12T12:56:14Z) - Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent [6.300669721057781]
メタ・ポリシィ・リフレクション(Meta-Policy Reflexion, MPR)は、LCM生成したリフレクションを構造化された述語型メタ・ポリシィ・メモリ(MPM)に集約するフレームワークである。
MPRはモデルウェイト更新なしで再利用可能な修正知識を外部化し、安全でないアクションや無効なアクションを減らすためにドメイン制約を強制し、言語ベースのリフレクションの適応性を維持する。
供給材料に報告された実証結果は, 反射ベースラインと比較して, 実行精度とロバスト性が一貫した向上を示し, 規則許容性は安定性をさらに向上させる。
論文 参考訳(メタデータ) (2025-09-04T08:18:39Z) - MEL: Multi-level Ensemble Learning for Resource-Constrained Environments [1.59297928921015]
我々は、弾力性のあるエッジ推論のための新しいフレームワーク、Mel(Multi-Level Ensemble Learning)を提案する。
MELは、複数のサーバが利用可能で、独立して障害下で、協調動作可能な複数の軽量バックアップモデルをトレーニングする。
視覚、言語、オーディオデータセットにわたる経験的評価は、MELが元のアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2025-06-25T02:33:57Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - A Federated Framework for LLM-based Recommendation [65.12855401912948]
大規模言語モデル(LLM)は、微調整されたユーザ行動データを通じて生成レコメンデーションシステムに権限を与えている。
ユーザーデータを利用すると、重大なプライバシー上のリスクが発生し、倫理上のジレンマやデータ保護規則違反につながる可能性がある。
プライバシー問題に対処するため、Fed4Rec(Federated Learning for Recommendation)が有望なソリューションとして特定されている。
論文 参考訳(メタデータ) (2024-02-15T14:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。