論文の概要: DLM: Unified Decision Language Models for Offline Multi-Agent Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2604.23557v1
- Date: Sun, 26 Apr 2026 06:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.431077
- Title: DLM: Unified Decision Language Models for Offline Multi-Agent Sequential Decision Making
- Title(参考訳): DLM:オフラインマルチエージェントシーケンス決定のための統一決定言語モデル
- Authors: Zhuohui Zhang, Bin Cheng, Bin He,
- Abstract要約: 決定言語モデル(DLM)は対話型シーケンス予測問題として多エージェント決定を定式化する。
実験により、統合DLMは、強いオフラインMARLベースラインとLLMに基づく会話的意思決定方法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 6.405773239987913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building scalable and reusable multi-agent decision policies from offline datasets remains a challenge in offline multi-agent reinforcement learning (MARL), as existing methods often rely on fixed observation formats and action spaces that limit generalization. In contrast, large language models (LLMs) offer a flexible modeling interface that can naturally accommodate heterogeneous observations and actions. Motivated by this, we propose the Decision Language Model (DLM), which formulates multi-agent decision making as a dialogue-style sequence prediction problem under the centralized training with decentralized execution paradigm. DLM is trained in two stages: a supervised fine-tuning phase, which leverages dialogue-style datasets for centralized training with inter-agent context and generates executable actions from offline trajectories, followed by a group relative policy optimization phase to enhance robustness to out-of-distribution actions through lightweight reward functions. Experiments on multiple benchmarks show that a unified DLM outperforms strong offline MARL baselines and LLM-based conversational decision-making methods, while demonstrating strong zero-shot generalization to unseen scenarios across tasks.
- Abstract(参考訳): オフラインデータセットからスケーラブルで再利用可能なマルチエージェント決定ポリシーを構築することは、オフラインマルチエージェント強化学習(MARL)において依然として課題である。
対照的に、大きな言語モデル(LLM)は、不均一な観察とアクションを自然に適応できるフレキシブルなモデリングインターフェースを提供する。
そこで本研究では,分散型実行パラダイムを用いた集中学習において,対話型シーケンス予測問題として多エージェント決定を定式化する決定言語モデル(DLM)を提案する。
DLMは、教師付き微調整フェーズと、エージェント間のコンテキストによる集中的なトレーニングにダイアログスタイルのデータセットを活用し、オフラインの軌跡から実行可能なアクションを生成する。
複数のベンチマークの実験では、統合されたDLMは強いオフラインのMARLベースラインとLLMベースの会話による意思決定方法よりも優れており、タスク全体にわたって見えないシナリオに強いゼロショットの一般化を示す。
関連論文リスト
- MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization [14.534152704620261]
産業レコメンデータシステムは、多様なユーザインタラクションやコンテキストを扱うために、MSL(Multi-scenario Learning)とMulti-task Learning(MTL)を採用するようになっている。
既存のアプローチでは,(1)複雑な特徴モジュールとの相互作用が限られているため,大規模モデルパラメータの非活用,(2)統合されたフレームワークにおけるシナリオとタスク情報の共同モデリングの難しさ,という2つの重大な欠点がある。
大規模言語モデル(LLM)における「プロンプト」パラダイムにインスパイアされた、統一された textbfMulti-textbfDistribution textbfL MSL フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-07T12:34:27Z) - DecisionLLM: Large Language Models for Long Sequence Decision Exploration [26.033533195580933]
大規模言語モデル(LLM)は複雑な推論や計画タスクにおいて顕著な成功を収めた。
本研究では,LLMのオフライン意思決定タスクへの適用について検討する。
トラジェクトリデータを自然言語のタスク記述と整合させることで、我々のモデルは将来的な決定を自動回帰的に予測できる。
論文 参考訳(メタデータ) (2026-01-15T07:42:02Z) - MLLM-CL: Continual Learning for Multimodal Large Language Models [39.19456474036905]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
本稿では,パラメータ分離とMLLMに基づくルーティング機構による破滅的干渉を防止することを提案する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models [16.91329676173649]
大規模言語モデル(LLM)を改善するために,オフラインデータ駆動型ディスカバリ・蒸留(O3D)を提案する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて、複数のタスクにまたがる一般化可能な知識を蒸留する。
2つの対話型意思決定ベンチマーク (ALFWorld と WebShop) による実証結果から,O3D が LLM の意思決定能力を著しく向上できることが確認された。
論文 参考訳(メタデータ) (2023-10-22T20:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。