論文の概要: Closing the Loop: Coordinating Inventory and Recommendation via Deep Reinforcement Learning on Multiple Timescales
- arxiv url: http://arxiv.org/abs/2510.04272v1
- Date: Sun, 05 Oct 2025 16:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.551111
- Title: Closing the Loop: Coordinating Inventory and Recommendation via Deep Reinforcement Learning on Multiple Timescales
- Title(参考訳): ループを閉じる:複数時間スケールでの深層強化学習によるインベントリとレコメンデーションの調整
- Authors: Jinyang Jiang, Jinhui Han, Yijie Peng, Ying Zhang,
- Abstract要約: 本稿では,機能モジュール間の共同最適化に適した統合マルチエージェントRLフレームワークを提案する。
まず,これらの関数間の相互作用を捉えるための統合理論モデルを構築した。
次に、ポリシーコンポーネントを部門機能に応じて分解する、新しいマルチタイムマルチエージェントRLアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 6.5434300333872875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective cross-functional coordination is essential for enhancing firm-wide profitability, particularly in the face of growing organizational complexity and scale. Recent advances in artificial intelligence, especially in reinforcement learning (RL), offer promising avenues to address this fundamental challenge. This paper proposes a unified multi-agent RL framework tailored for joint optimization across distinct functional modules, exemplified via coordinating inventory replenishment and personalized product recommendation. We first develop an integrated theoretical model to capture the intricate interplay between these functions and derive analytical benchmarks that characterize optimal coordination. The analysis reveals synchronized adjustment patterns across products and over time, highlighting the importance of coordinated decision-making. Leveraging these insights, we design a novel multi-timescale multi-agent RL architecture that decomposes policy components according to departmental functions and assigns distinct learning speeds based on task complexity and responsiveness. Our model-free multi-agent design improves scalability and deployment flexibility, while multi-timescale updates enhance convergence stability and adaptability across heterogeneous decisions. We further establish the asymptotic convergence of the proposed algorithm. Extensive simulation experiments demonstrate that the proposed approach significantly improves profitability relative to siloed decision-making frameworks, while the behaviors of the trained RL agents align closely with the managerial insights from our theoretical model. Taken together, this work provides a scalable, interpretable RL-based solution to enable effective cross-functional coordination in complex business settings.
- Abstract(参考訳): 効果的なクロスファンクショナルコーディネートは、企業全体の利益性を高めるために、特に組織の複雑さと規模が増大する中で不可欠である。
人工知能の最近の進歩、特に強化学習(RL)は、この根本的な課題に対処するための有望な道を提供する。
本稿では,機能モジュール間の共同最適化に適した統合マルチエージェントRLフレームワークを提案する。
まず、これらの関数間の複雑な相互作用を捉えるための統合理論モデルを開発し、最適座標を特徴付ける解析的ベンチマークを導出する。
この分析は、製品と時間とともに同期された調整パターンを明らかにし、協調した意思決定の重要性を強調している。
これらの知見を生かして、ポリシーコンポーネントを部門機能に従って分解し、タスクの複雑さと応答性に基づいて異なる学習速度を割り当てる、新しいマルチタイムマルチエージェントRLアーキテクチャを設計する。
モデルフリーなマルチエージェント設計ではスケーラビリティとデプロイメントの柔軟性が向上し,マルチタイムの更新により収束安定性と不均一な決定に対する適応性が向上する。
さらに,提案アルゴリズムの漸近収束性を確立する。
大規模シミュレーション実験により,提案手法はサイロ化決定フレームワークと比較して利益率を著しく向上させる一方で,訓練されたRLエージェントの挙動は,我々の理論モデルから得られた管理的洞察と密接に一致していることが示された。
この作業は、複雑なビジネス環境で効果的なクロスファンクショナルな調整を可能にする、スケーラブルで解釈可能なRLベースのソリューションを提供する。
関連論文リスト
- Strategic Coordination for Evolving Multi-agent Systems: A Hierarchical Reinforcement and Collective Learning Approach [0.0]
強化学習は、シーケンシャルな意思決定をモデル化する方法を提供する。
エージェントは、MARLを使用して高レベル戦略を採り、アクションスペース削減のためのプランをグループ化する。
低レベルの集団学習層は、効率的で分散化された協調的な決定を保証する。
論文 参考訳(メタデータ) (2025-09-22T17:58:45Z) - Large Language Models for Design Structure Matrix Optimization [4.513609458468522]
複雑なエンジニアリングシステムでは、設計構造行列(DSM)を用いてコンポーネントや開発活動間の相互依存性をモデル化し分析することが多い。
フィードバックループを最小限に抑え、モジュール性やプロセス効率を向上させるためにDSM内の要素を再編成することは、エンジニアリング設計と運用において困難な最適化問題となっている。
本研究では, 大規模言語モデル (LLM) が, 高度な推論や文脈理解にその能力を活用することで, そうしたCO問題の解決を支援する可能性について検討する。
論文 参考訳(メタデータ) (2025-06-11T13:53:35Z) - Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Residual Learning Inspired Crossover Operator and Strategy Enhancements for Evolutionary Multitasking [0.3749861135832073]
進化的マルチタスキングでは、クロスオーバー演算子やスキルファクター割り当てといった戦略が効果的な知識伝達に不可欠である。
本稿では,残差学習に基づくMFEA-RL法を提案する。
ResNetベースのメカニズムは、タスク適応性を改善するためのスキルファクタを動的に割り当て、ランダムマッピング機構は、効率的にクロスオーバー操作を行う。
論文 参考訳(メタデータ) (2025-03-27T10:27:17Z) - A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models [26.459779380808587]
本稿では,Cascading Cooperative Multi-agent (CCMA) フレームワークを導入し,個別のインタラクションに RL を統合すること,地域協力に微調整のLarge Language Model (LLM) を導入すること,グローバル最適化に報奨関数を導入すること,複雑な運転シナリオをまたいだ意思決定を動的に最適化するRetrieval-augmented Generation メカニズムを提案する。
実験の結果、CCMAは既存のRL法よりも優れており、複雑な運転環境下でのマイクロレベルとマクロレベルの両方のパフォーマンスが大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-11T09:08:04Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。