論文の概要: MindFlow: Revolutionizing E-commerce Customer Support with Multimodal LLM Agents
- arxiv url: http://arxiv.org/abs/2507.05330v1
- Date: Mon, 07 Jul 2025 17:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.2752
- Title: MindFlow: Revolutionizing E-commerce Customer Support with Multimodal LLM Agents
- Title(参考訳): MindFlow:マルチモーダルLLMエージェントによるEコマース顧客サポートの革新
- Authors: Ming Gong, Xucheng Huang, Chenghan Yang, Xianhan Peng, Haoxin Wang, Yang Liu, Ling Jiang,
- Abstract要約: 我々は,eコマースに適したオープンソースのマルチモーダルLLMエージェントであるMindFlowを紹介する。
メモリ、意思決定、アクションモジュールを統合し、視覚的テキスト推論に"MLLM-as-Tool"戦略を採用する。
- 参考スコア(独自算出の注目度): 21.102931466891135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled new applications in e-commerce customer service. However, their capabilities remain constrained in complex, multimodal scenarios. We present MindFlow, the first open-source multimodal LLM agent tailored for e-commerce. Built on the CoALA framework, it integrates memory, decision-making, and action modules, and adopts a modular "MLLM-as-Tool" strategy for effect visual-textual reasoning. Evaluated via online A/B testing and simulation-based ablation, MindFlow demonstrates substantial gains in handling complex queries, improving user satisfaction, and reducing operational costs, with a 93.53% relative improvement observed in real-world deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、eコマース顧客サービスにおける新しい応用を可能にしている。
しかし、それらの能力は複雑なマルチモーダルシナリオで制約される。
我々は,eコマースに適したオープンソースのマルチモーダルLLMエージェントであるMindFlowを紹介する。
CoALAフレームワーク上に構築され、メモリ、意思決定、アクションモジュールを統合し、視覚的・テキスト的推論にモジュール型のMLLM-as-Tool戦略を採用する。
オンラインA/Bテストとシミュレーションベースのアブレーションを通じて評価され、MindFlowは、複雑なクエリの処理、ユーザの満足度の向上、運用コストの削減において、現実のデプロイメントで93.53%の相対的な改善が見られた。
関連論文リスト
- ECom-Bench: Can LLM Agent Resolve Real-World E-commerce Customer Support Issues? [20.83383124467603]
ECom-Benchは、eコマース顧客サポートドメインにおいて、マルチモーダル機能を備えたLLMエージェントを評価するための最初のベンチマークフレームワークである。
ECom-Benchは、実際のeコマース顧客インタラクションから収集されたペルソナ情報と、真正なeコマース対話から派生した現実的なタスクデータセットに基づく動的ユーザシミュレーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-08T03:35:48Z) - LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。
大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。
このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文 参考訳(メタデータ) (2025-03-12T10:10:30Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication [11.254610576923204]
選択的モーダル通信を用いたFedMFS(Federated Multimodal Fusion Learning)を提案する。
鍵となる考え方は、各デバイスに対するモダリティ選択基準の導入であり、(i)Shapley値解析によって測定されたモダリティの影響を重み付けし、(ii)モダリティモデルサイズを通信オーバーヘッドの指標とする。
実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。
論文 参考訳(メタデータ) (2023-10-10T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。