論文の概要: Planning with Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.23014v1
- Date: Sat, 27 Sep 2025 00:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.984667
- Title: Planning with Unified Multimodal Models
- Title(参考訳): 統一型マルチモーダルモデルによる計画
- Authors: Yihao Sun, Zhilong Zhang, Yang Yu, Pierre-Luc Bacon,
- Abstract要約: 我々は、統一マルチモーダルモデル(UMM)は、生成した視覚的コンテンツを通して推論を行うことにより、意思決定により大きな可能性を秘めていると論じる。
このフレームワーク内では、単一のモデルがポリシー、ダイナミクスモデル、バリュー関数として同時に機能します。
そこで本研究では, 生成モデルを自己判別器として機能し, 無効な力学予測をフィルタリングする手法を提案する。
- 参考スコア(独自算出の注目度): 27.156039833076324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the powerful reasoning capabilities of large language models (LLMs) and vision-language models (VLMs), many recent works have explored using them for decision-making. However, most of these approaches rely solely on language-based reasoning, which limits their ability to reason and make informed decisions. Recently, a promising new direction has emerged with unified multimodal models (UMMs), which support both multimodal inputs and outputs. We believe such models have greater potential for decision-making by enabling reasoning through generated visual content. To this end, we propose Uni-Plan, a planning framework built on UMMs. Within this framework, a single model simultaneously serves as the policy, dynamics model, and value function. In addition, to avoid hallucinations in dynamics predictions, we present a novel approach self-discriminated filtering, where the generative model serves as a self-discriminator to filter out invalid dynamics predictions. Experiments on long-horizon planning tasks show that Uni-Plan substantially improves success rates compared to VLM-based methods, while also showing strong data scalability, requiring no expert demonstrations and achieving better performance under the same training-data size. This work lays a foundation for future research in reasoning and decision-making with UMMs.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) の強力な推論能力により、最近の多くの研究が意思決定に利用することを検討している。
しかし、これらのアプローチのほとんどは言語ベースの推論にのみ依存しており、推論能力や情報的な決定を制限している。
近年,マルチモーダル入力と出力の両方をサポートする統一型マルチモーダルモデル (UMM) によって,将来性のある新たな方向性が出現している。
このようなモデルは、生成した視覚的コンテンツを通して推論を行うことにより、意思決定の可能性がより大きいと信じている。
この目的のために、UMM上に構築されたプランニングフレームワークであるUni-Planを提案する。
このフレームワーク内では、単一のモデルがポリシー、ダイナミクスモデル、バリュー関数として同時に機能します。
さらに,動的予測の幻覚を避けるために,生成モデルが未知の動的予測をフィルタリングする自己識別器として機能する,新たな自己識別フィルタリング手法を提案する。
長期計画タスクの実験では、Uni-PlanはVLMベースの手法に比べて成功率を大幅に向上する一方で、強力なデータスケーラビリティを示し、専門家によるデモンストレーションを必要とせず、同じトレーニングデータサイズでより良いパフォーマンスを実現している。
この研究は、UMMによる推論と意思決定における将来の研究の基盤となる。
関連論文リスト
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。