論文の概要: cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending
- arxiv url: http://arxiv.org/abs/2508.20818v1
- Date: Thu, 28 Aug 2025 14:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.44359
- Title: cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending
- Title(参考訳): cMALC-D:多様性に基づく文脈ブレンディングを用いたマルチエージェントLLM指導カリキュラム学習
- Authors: Anirudh Satheesh, Keenan Powell, Hua Wei,
- Abstract要約: コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
- 参考スコア(独自算出の注目度): 3.939989712024268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many multi-agent reinforcement learning (MARL) algorithms are trained in fixed simulation environments, making them brittle when deployed in real-world scenarios with more complex and uncertain conditions. Contextual MARL (cMARL) addresses this by parameterizing environments with context variables and training a context-agnostic policy that performs well across all environment configurations. Existing cMARL methods attempt to use curriculum learning to help train and evaluate context-agnostic policies, but they often rely on unreliable proxy signals, such as value estimates or generalized advantage estimates that are noisy and unstable in multi-agent settings due to inter-agent dynamics and partial observability. To address these issues, we propose Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending (cMALC-D), a framework that uses Large Language Models (LLMs) to generate semantically meaningful curricula and provide a more robust evaluation signal. To prevent mode collapse and encourage exploration, we introduce a novel diversity-based context blending mechanism that creates new training scenarios by combining features from prior contexts. Experiments in traffic signal control domains demonstrate that cMALC-D significantly improves both generalization and sample efficiency compared to existing curriculum learning baselines. We provide code at https://github.com/DaRL-LibSignal/cMALC-D.
- Abstract(参考訳): 多くのマルチエージェント強化学習(MARL)アルゴリズムは、固定されたシミュレーション環境で訓練されており、より複雑で不確実な条件で現実のシナリオにデプロイすると不安定になる。
コンテキストMARL(cMARL)は、環境をコンテキスト変数でパラメータ化し、すべての環境構成でよく機能するコンテキストに依存しないポリシーをトレーニングすることで、この問題に対処する。
既存のcMARL法は、カリキュラム学習を利用して文脈に依存しないポリシーを訓練し評価するが、それらはしばしば、エージェント間力学と部分可観測性によるマルチエージェント設定においてノイズがあり不安定な値推定や一般化された優位推定のような信頼性の低いプロキシ信号に依存している。
これらの問題に対処するために,大言語モデル(LLM)を用いて意味論的に意味のあるカリキュラムを生成し,より堅牢な評価信号を提供するフレームワークである,多様性に基づくコンテキストブレンディング(cMALC-D)を用いたコンテキストマルチエージェント LLM-Guided Curriculum Learning を提案する。
モード崩壊の防止と探索の促進を目的として,従来のコンテキストの特徴を組み合わせることで,新たなトレーニングシナリオを生成する,多様性に基づくコンテキストブレンディング機構を導入する。
交通信号制御領域の実験により、cMALC-Dは既存のカリキュラム学習ベースラインと比較して一般化とサンプル効率の両方を著しく改善することが示された。
私たちはhttps://github.com/DaRL-LibSignal/cMALC-Dでコードを提供しています。
関連論文リスト
- MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。