Fugu-MT 論文翻訳(概要): MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

論文の概要: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

arxiv url: http://arxiv.org/abs/2603.15418v1
Date: Mon, 16 Mar 2026 15:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.542459
Title: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings
Title（参考訳）: MA-VLCM:マルチエージェントチーム設定におけるポリシの値推定のための視覚言語批判モデル
Authors: Shahil Shaik, Aditya Parameshwaran, Anshul Nayak, Jonathon M. Smereka, Yue Wang,
Abstract要約: マルチエージェント強化学習(MARL)は一般に、価値関数を推定するために中央集権的な批評家に依存している。インターネット規模のデータに基づいてトレーニングされた大規模な視覚言語アクションモデル(VLA)は、強力なマルチモーダル推論とゼロショットの一般化能力を示す。本稿では,MA-VLCM(Multi-Agent Vision-Language-Critic Models)を提案する。
参考スコア（独自算出の注目度）: 2.9017174137438815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent reinforcement learning (MARL) commonly relies on a centralized critic to estimate the value function. However, learning such a critic from scratch is highly sample-inefficient and often lacks generalization across environments. At the same time, large vision-language-action models (VLAs) trained on internet-scale data exhibit strong multimodal reasoning and zero-shot generalization capabilities, yet directly deploying them for robotic execution remains computationally prohibitive, particularly in heterogeneous multi-robot systems with diverse embodiments and resource constraints. To address these challenges, we propose Multi-Agent Vision-Language-Critic Models (MA-VLCM), a framework that replaces the learned centralized critic in MARL with a pretrained vision-language model fine-tuned to evaluate multi-agent behavior. MA-VLCM acts as a centralized critic conditioned on natural language task descriptions, visual trajectory observations, and structured multi-agent state information. By eliminating critic learning during policy optimization, our approach significantly improves sample efficiency while producing compact execution policies suitable for deployment on resource-constrained robots. Results show good zero-shot return estimation on models with differing VLM backbones on in-distribution and out-of-distribution scenarios in multi-agent team settings
Abstract（参考訳）: マルチエージェント強化学習(MARL)は一般に、価値関数を推定するために中央集権的な批評家に依存している。しかし、そのような批判をゼロから学ぶことは、非常に非効率であり、環境全体にわたる一般化を欠いていることが多い。同時に、インターネット規模のデータに基づいて訓練された大規模な視覚-言語-アクションモデル(VLA)は、強力なマルチモーダル推論とゼロショットの一般化能力を示すが、ロボット実行のためにそれらを直接デプロイすることは、計算的に禁止されている。これらの課題に対処するために,MARLにおける学習集中型批判を,マルチエージェント動作を評価するための事前学習された視覚言語モデルに置き換える,マルチエージェント視覚言語批判モデル(MA-VLCM)を提案する。 MA-VLCMは、自然言語のタスク記述、視覚軌道観測、構造化されたマルチエージェント状態情報に基づく集中的な批判として機能する。政策最適化における批判的学習を排除し,資源制約されたロボットへの展開に適したコンパクトな実行ポリシーを作成しながら,サンプル効率を著しく向上させる。マルチエージェントチーム設定における分布内および分布外シナリオにおけるVLMバックボーンが異なるモデル上でのゼロショットリターン推定が良好であることを示す。

関連論文リスト

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。 MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文参考訳（メタデータ） (2026-03-05T06:01:26Z)
ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文参考訳（メタデータ） (2025-10-05T15:29:57Z)
PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications [34.58930119882675]
MLLMのロバスト性を定量化する最初の体系的かつ解釈可能なスコアである textbfPatch Context Robustness Index (PCRI) を導入する。 InternVL2-26B や Qwen2VL-72B など,タスク間の一貫したロバスト性を示すモデルはほとんどありません。
論文参考訳（メタデータ） (2025-09-28T13:39:57Z)
cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文参考訳（メタデータ） (2025-08-28T14:16:17Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。 V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。 V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Enhancing Robotic Manipulation with AI Feedback from Multimodal Large Language Models [41.38520841504846]
大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。 Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
論文参考訳（メタデータ） (2024-02-22T03:14:03Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。