Fugu-MT 論文翻訳(概要): QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?

論文の概要: QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?

arxiv url: http://arxiv.org/abs/2504.12961v1
Date: Thu, 17 Apr 2025 14:07:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 18:37:26.691607
Title: QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?
Title（参考訳）: QLLM: マルチエージェント強化学習にクレジット割り当てのための混合ネットワークは本当に必要か?
Authors: Zhouyang Jiang, Bin Zhang, Airong Wei, Zhiwei Xu,
Abstract要約: マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
参考スコア（独自算出の注目度）: 4.429189958406034
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Credit assignment has remained a fundamental challenge in multi-agent reinforcement learning (MARL). Previous studies have primarily addressed this issue through value decomposition methods under the centralized training with decentralized execution paradigm, where neural networks are utilized to approximate the nonlinear relationship between individual Q-values and the global Q-value. Although these approaches have achieved considerable success in various benchmark tasks, they still suffer from several limitations, including imprecise attribution of contributions, limited interpretability, and poor scalability in high-dimensional state spaces. To address these challenges, we propose a novel algorithm, \textbf{QLLM}, which facilitates the automatic construction of credit assignment functions using large language models (LLMs). Specifically, the concept of \textbf{TFCAF} is introduced, wherein the credit allocation process is represented as a direct and expressive nonlinear functional formulation. A custom-designed \textit{coder-evaluator} framework is further employed to guide the generation, verification, and refinement of executable code by LLMs, significantly mitigating issues such as hallucination and shallow reasoning during inference. Extensive experiments conducted on several standard MARL benchmarks demonstrate that the proposed method consistently outperforms existing state-of-the-art baselines. Moreover, QLLM exhibits strong generalization capability and maintains compatibility with a wide range of MARL algorithms that utilize mixing networks, positioning it as a promising and versatile solution for complex multi-agent scenarios.
Abstract（参考訳）: クレジットの割り当ては、マルチエージェント強化学習(MARL)における根本的な課題であり続けている。従来の研究では、個別のQ値とグローバルなQ値の非線形関係を近似するためにニューラルネットワークを利用する分散実行パラダイムを用いた集中的なトレーニングの下で、この問題に主に対処してきた。これらのアプローチは様々なベンチマークタスクでかなりの成功を収めてきたが、コントリビューションの不正確さ、限定的な解釈可能性、高次元状態空間でのスケーラビリティの低下など、いくつかの制限に悩まされている。これらの課題に対処するために,大規模言語モデル (LLM) を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである \textbf{QLLM} を提案する。具体的には、クレジット割り当てプロセスは直接的かつ表現力のある非線形汎関数の定式化として表現される。カスタム設計の『textit{coder-evaluator} フレームワーク』は LLM による実行可能コードの生成、検証、改善をガイドするためにさらに使用される。いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。さらに、QLLMは強力な一般化能力を示し、複雑なマルチエージェントシナリオのための有望で汎用的なソリューションとして、混合ネットワークを利用する幅広いMARLアルゴリズムとの互換性を維持している。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-05T17:58:13Z)
Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。 L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-05-20T07:04:01Z)
Benchmarking MOEAs for solving continuous multi-objective RL problems [3.8936716676293917]
多目的強化学習(MORL)は、複数の、しばしば矛盾する報酬を同時に最適化する課題に対処する。本稿では,複雑なMORL問題の解法における多目的進化アルゴリズムの適用性と限界について検討する。
論文参考訳（メタデータ） (2025-05-19T20:54:20Z)
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。 CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。 CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文参考訳（メタデータ） (2025-05-01T08:27:14Z)
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [15.53963063493065]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文参考訳（メタデータ） (2025-03-10T09:52:42Z)
Optimizing Value of Learning in Task-Oriented Federated Meta-Learning Systems [10.332182237773818]
デバイス間の個別のトレーニングニーズを評価するために、新しいメトリック、学習のメトリック値(VoL)が導入された。タスクレベルの重み(TLW)は、FMLトレーニングのタスクレベルの考慮と公平性に基づいて定義される。
論文参考訳（メタデータ） (2025-01-07T00:30:31Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Amortized Bayesian Multilevel Models [9.831471158899644]
マルチレベルモデル(MLM)はベイズワークフローの中心的なビルディングブロックである。 MLMは重要な計算上の課題を生じさせ、しばしばその推定と評価は合理的な時間制約の中で難解である。シミュレーションに基づく推論の最近の進歩は、深層生成ネットワークを用いた複雑な確率モデルに対処するための有望な解決策を提供する。マルチレベルモデルの確率的因数分解を利用して、効率的なニューラルネットワークトレーニングと、未知のデータセットに対する後続の即時推論を容易にするニューラルネットワークアーキテクチャのファミリーを探索する。
論文参考訳（メタデータ） (2024-08-23T17:11:04Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文参考訳（メタデータ） (2024-02-05T22:15:55Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。 RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文参考訳（メタデータ） (2022-05-30T16:56:06Z)
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文参考訳（メタデータ） (2021-12-30T18:21:53Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。