論文の概要: MemOrb: A Plug-and-Play Verbal-Reinforcement Memory Layer for E-Commerce Customer Service
- arxiv url: http://arxiv.org/abs/2509.18713v1
- Date: Tue, 23 Sep 2025 06:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.737779
- Title: MemOrb: A Plug-and-Play Verbal-Reinforcement Memory Layer for E-Commerce Customer Service
- Title(参考訳): MemOrb:Eコマース顧客サービスのためのプラグイン・アンド・プレイのバーバル強化メモリレイヤ
- Authors: Yizhe Huang, Yang Liu, Ruiyu Zhao, Xiaolong Zhong, Xingming Yue, Ling Jiang,
- Abstract要約: 大規模言語モデルベースのエージェントは、顧客サービスにますますデプロイされています。
セッションを横切ることを忘れたり、エラーを繰り返したり、継続的な自己改善のメカニズムを欠いていることが多い。
MemOrbは、マルチターン相互作用をコンパクトな戦略反射に蒸留する軽量な言語強化記憶層である。
- 参考スコア(独自算出の注目度): 9.639654920563496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model-based agents(LLM-based agents) are increasingly deployed in customer service, yet they often forget across sessions, repeat errors, and lack mechanisms for continual self-improvement. This makes them unreliable in dynamic settings where stability and consistency are critical. To better evaluate these properties, we emphasize two indicators: task success rate as a measure of overall effectiveness, and consistency metrics such as Pass$^k$ to capture reliability across multiple trials. To address the limitations of existing approaches, we propose MemOrb, a lightweight and plug-and-play verbal reinforcement memory layer that distills multi-turn interactions into compact strategy reflections. These reflections are stored in a shared memory bank and retrieved to guide decision-making, without requiring any fine-tuning. Experiments show that MemOrb significantly improves both success rate and stability, achieving up to a 63 percentage-point gain in multi-turn success rate and delivering more consistent performance across repeated trials. Our results demonstrate that structured reflection is a powerful mechanism for enhancing long-term reliability of frozen LLM agents in customer service scenarios.
- Abstract(参考訳): 大規模言語モデルベースのエージェント(LLMベースのエージェント)は、顧客サービスにますますデプロイされているが、セッションを行き来し、繰り返しエラーを発生させ、継続的な自己改善のメカニズムを欠いていることが多い。
これにより、安定性と一貫性が不可欠である動的な設定では信頼性が低下する。
これらの特性をよりよく評価するために、全体的な有効性の尺度としてのタスク成功率と、複数の試行で信頼性を捉えるためにPass$^k$のような一貫性指標の2つを強調した。
既存の手法の限界に対処するために,マルチターン相互作用をコンパクトな戦略反射に蒸留する,軽量でプラグアンドプレイな言語強化メモリ層であるMemOrbを提案する。
これらのリフレクションは共有メモリバンクに格納され、微調整を必要とせず、意思決定のガイドとして検索される。
実験により、MemOrbは成功率と安定性の両方を著しく改善し、マルチターン成功率において最大63ポイントの上昇を達成し、繰り返し試行を通してより一貫したパフォーマンスを提供することが示された。
以上の結果から, 構造化リフレクションは, 顧客サービスシナリオにおける凍結LDMエージェントの長期信頼性を高めるための強力なメカニズムであることが示唆された。
関連論文リスト
- ParamMem: Augmenting Language Agents with Parametric Reflective Memory [50.28529749962535]
自己回帰により、言語エージェントは反復的に解を洗練できるが、しばしば推論性能を制限する反復的な出力を生成する。
モデルパラメータにクロスサンプル反射パターンをエンコードするパラメトリックメモリモジュールであるParamMemを紹介する。
本稿では,パラメトリックメモリとエピソードメモリとクロスサンプルメモリを統合したリフレクションベースのエージェントフレームワークであるParamAgentを提案する。
論文 参考訳(メタデータ) (2026-02-26T18:28:04Z) - Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement [2.0755366440393748]
大きな言語モデル(LLM)は、臨床退院計画の約束を示すが、その使用は幻覚、排便、誤診された自信によって制限される。
安全性と信頼性を向上させる自己改善型キャッシュオプションのPlanner-Auditorフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-28T23:04:11Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory [46.632646462295234]
提案するMemRLは,非パラメトリック強化学習をエピソードメモリ上で行うことで,エージェントの自己進化を可能にするフレームワークである。
MemRLは、セマンティックな関連性によって候補をフィルタリングし、学習したQ値に基づいて候補を選択する2相検索機構を採用している。
解析実験により,MemRLは安定性・塑性ジレンマを効果的に調整し,重み付けを伴わずに連続的なランタイム改善を可能にすることを確認した。
論文 参考訳(メタデータ) (2026-01-06T17:14:50Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - FLARE: Adaptive Multi-Dimensional Reputation for Robust Client Reliability in Federated Learning [0.6524460254566904]
フェデレートラーニング(FL)は、データのプライバシを維持しながら協調的なモデルトレーニングを可能にする。
ビザンツの攻撃、データ中毒、あるいは適応的な敵行動を通じてモデルの完全性を侵害する悪意のあるクライアントには、依然として脆弱である。
FLAREは,クライアントの信頼性評価を二分決定から連続的多次元信頼評価に変換するアダプティブな評価ベースフレームワークである。
論文 参考訳(メタデータ) (2025-11-18T17:57:40Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - SI-FACT: Mitigating Knowledge Conflict via Self-Improving Faithfulness-Aware Contrastive Tuning [0.0]
大規模言語モデルは、知識の衝突により、知識集約的なタスクにおいて不誠実な応答を生成することが多い。
このフレームワークは自己指示機構を使用して、ベースLLMが高品質なコントラスト学習データを自動生成することを可能にする。
知識衝突評価ベンチマークのECARE KREとCOSE KREの実験では、Llama3 8Bに基づくSI FACTモデルでは、最高のベースライン法よりもコンテキストリコール率を6.2%改善している。
論文 参考訳(メタデータ) (2025-09-12T12:56:14Z) - Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent [6.300669721057781]
メタ・ポリシィ・リフレクション(Meta-Policy Reflexion, MPR)は、LCM生成したリフレクションを構造化された述語型メタ・ポリシィ・メモリ(MPM)に集約するフレームワークである。
MPRはモデルウェイト更新なしで再利用可能な修正知識を外部化し、安全でないアクションや無効なアクションを減らすためにドメイン制約を強制し、言語ベースのリフレクションの適応性を維持する。
供給材料に報告された実証結果は, 反射ベースラインと比較して, 実行精度とロバスト性が一貫した向上を示し, 規則許容性は安定性をさらに向上させる。
論文 参考訳(メタデータ) (2025-09-04T08:18:39Z) - MEL: Multi-level Ensemble Learning for Resource-Constrained Environments [1.59297928921015]
我々は、弾力性のあるエッジ推論のための新しいフレームワーク、Mel(Multi-Level Ensemble Learning)を提案する。
MELは、複数のサーバが利用可能で、独立して障害下で、協調動作可能な複数の軽量バックアップモデルをトレーニングする。
視覚、言語、オーディオデータセットにわたる経験的評価は、MELが元のアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2025-06-25T02:33:57Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - A Federated Framework for LLM-based Recommendation [65.12855401912948]
大規模言語モデル(LLM)は、微調整されたユーザ行動データを通じて生成レコメンデーションシステムに権限を与えている。
ユーザーデータを利用すると、重大なプライバシー上のリスクが発生し、倫理上のジレンマやデータ保護規則違反につながる可能性がある。
プライバシー問題に対処するため、Fed4Rec(Federated Learning for Recommendation)が有望なソリューションとして特定されている。
論文 参考訳(メタデータ) (2024-02-15T14:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。