Fugu-MT 論文翻訳(概要): Grounded Answers for Multi-agent Decision-making Problem through Generative World Model

論文の概要: Grounded Answers for Multi-agent Decision-making Problem through Generative World Model

arxiv url: http://arxiv.org/abs/2410.02664v1
Date: Thu, 3 Oct 2024 16:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 01:42:49.676848
Title: Grounded Answers for Multi-agent Decision-making Problem through Generative World Model
Title（参考訳）: 生成的世界モデルによるマルチエージェント意思決定問題の解答
Authors: Zeyang Liu, Xinrui Yang, Shiguang Sun, Long Qian, Lipeng Wan, Xingyu Chen, Xuguang Lan,
Abstract要約: 生成モデルは、複雑なマルチエージェント決定問題に対するスケッチ的で誤解を招くソリューションをしばしば生み出す。本稿では,言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し,生成した回答を強化するパラダイムを示す。特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。
参考スコア（独自算出の注目度）: 27.263093790379024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in generative models has stimulated significant innovations in many fields, such as image generation and chatbots. Despite their success, these models often produce sketchy and misleading solutions for complex multi-agent decision-making problems because they miss the trial-and-error experience and reasoning as humans. To address this limitation, we explore a paradigm that integrates a language-guided simulator into the multi-agent reinforcement learning pipeline to enhance the generated answer. The simulator is a world model that separately learns dynamics and reward, where the dynamics model comprises an image tokenizer as well as a causal transformer to generate interaction transitions autoregressively, and the reward model is a bidirectional transformer learned by maximizing the likelihood of trajectories in the expert demonstrations under language guidance. Given an image of the current state and the task description, we use the world model to train the joint policy and produce the image sequence as the answer by running the converged policy on the dynamics model. The empirical results demonstrate that this framework can improve the answers for multi-agent decision-making problems by showing superior performance on the training and unseen tasks of the StarCraft Multi-Agent Challenge benchmark. In particular, it can generate consistent interaction sequences and explainable reward functions at interaction states, opening the path for training generative models of the future.
Abstract（参考訳）: 生成モデルの最近の進歩は、画像生成やチャットボットなど、多くの分野で重要なイノベーションを刺激している。彼らの成功にもかかわらず、これらのモデルは、複雑なマルチエージェントの意思決定問題に対して、試行錯誤の経験や人間としての推論を欠いた、スケッチ的で誤解を招くソリューションをしばしば生み出す。この制限に対処するために、言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し、生成した回答を強化するパラダイムを探索する。シミュレータは、ダイナミックスと報酬を別々に学習する世界モデルであり、ダイナミックスモデルは画像トークン化器と因果変換器から構成され、自己回帰的に相互作用遷移を生成する。現状のイメージとタスク記述が与えられた場合、我々は、世界モデルを用いてジョイントポリシーをトレーニングし、ダイナミックスモデル上で収束ポリシーを実行することで、イメージシーケンスを回答として生成する。実験の結果、このフレームワークは、StarCraft Multi-Agent Challengeベンチマークのトレーニングおよび未確認タスクにおいて、優れたパフォーマンスを示すことで、マルチエージェント意思決定問題に対する回答を改善することができることが示された。特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。

関連論文リスト

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models [13.90532093512575]
エージェント学習のための統合フレームワークであるImagine-then-Plan(textttITP)を提案する。最終目標とタスクの進捗をトレードオフすることで、適応的な新しいルックアヘッド機構を導入する。実験の結果, TexttITP は競争ベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2026-01-13T19:49:58Z)
ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文参考訳（メタデータ） (2025-11-14T17:00:29Z)
Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Perspectives for Direct Interpretability in Multi-Agent Deep Reinforcement Learning [0.41783829807634765]
マルチエージェントディープ強化学習(MADRL)は、ロボット工学やゲームにおいて複雑な問題を解くのに効果的であることが証明された。本稿では, 学習モデルから直接, ポストホックな説明を生成することによって, 直接解釈可能であることを提唱する。我々は、関連バックプロパゲーション、知識エディション、モデルステアリング、アクティベーションパッチ、スパースオートエンコーダ、サーキットディスカバリなど、現代的な手法を探求する。
論文参考訳（メタデータ） (2025-02-02T09:15:27Z)
Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。 DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文参考訳（メタデータ） (2024-11-23T10:06:18Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文参考訳（メタデータ） (2023-09-08T22:12:43Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Multiscale Generative Models: Improving Performance of a Generative Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2022-01-24T13:05:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。