論文の概要: DMWM: Dual-Mind World Model with Long-Term Imagination
- arxiv url: http://arxiv.org/abs/2502.07591v1
- Date: Tue, 11 Feb 2025 14:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:48.192366
- Title: DMWM: Dual-Mind World Model with Long-Term Imagination
- Title(参考訳): DMWM:長期イマジネーションによる2次元世界モデル
- Authors: Lingyi Wang, Rashed Shelim, Walid Saad, Naren Ramakrishnan,
- Abstract要約: 本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
- 参考スコア(独自算出の注目度): 53.98633183204453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagination in world models is crucial for enabling agents to learn long-horizon policy in a sample-efficient manner. Existing recurrent state-space model (RSSM)-based world models depend on single-step statistical inference to capture the environment dynamics, and, hence, they are unable to perform long-term imagination tasks due to the accumulation of prediction errors. Inspired by the dual-process theory of human cognition, we propose a novel dual-mind world model (DMWM) framework that integrates logical reasoning to enable imagination with logical consistency. DMWM is composed of two components: an RSSM-based System 1 (RSSM-S1) component that handles state transitions in an intuitive manner and a logic-integrated neural network-based System 2 (LINN-S2) component that guides the imagination process through hierarchical deep logical reasoning. The inter-system feedback mechanism is designed to ensure that the imagination process follows the logical rules of the real environment. The proposed framework is evaluated on benchmark tasks that require long-term planning from the DMControl suite. Extensive experimental results demonstrate that the proposed framework yields significant improvements in terms of logical coherence, trial efficiency, data efficiency and long-term imagination over the state-of-the-art world models.
- Abstract(参考訳): 世界モデルにおけるイマジネーションは、エージェントがサンプル効率のよいロングホライズンポリシーを学習できるようにするために不可欠である。
既存の状態空間モデル(RSSM)に基づく世界モデルは、環境力学を捉えるために単一ステップの統計的推測に依存しているため、予測誤差の蓄積による長期的な想像上のタスクは実行できない。
人間の認知の二重プロセス理論に触発されて、論理的推論を統合し、論理的一貫性で想像力を実現する新しいデュアルミンド世界モデル(DMWM)を提案する。
DMWMは、直感的に状態遷移を処理するRSSMベースのシステム1(RSSM-S1)コンポーネントと、階層的な深い論理的推論を通じて想像プロセスを導くロジック統合ニューラルネットワークベースのシステム2(LINN-S2)コンポーネントの2つのコンポーネントで構成されている。
システム間フィードバック機構は、実環境の論理的ルールに従ってイマジネーションプロセスが実行されるように設計されている。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
大規模な実験結果から,提案手法は最先端の世界モデルに対する論理コヒーレンス,試行効率,データ効率,長期的想像力の面で大きな改善をもたらすことが示された。
関連論文リスト
- BrainMT: A Hybrid Mamba-Transformer Architecture for Modeling Long-Range Dependencies in Functional MRI Data [0.09363323206192666]
近年のディープラーニングの進歩により、機能的磁気共鳴画像(fMRI)脳の体積から直接表現型測定を予測できるようになった。
本稿では,fMRIデータの長距離時間特性を効率的に学習し,統合するための新しいハイブリッドフレームワークBrainMTを紹介する。
筆者らのフレームワークは,(1)時間優先走査機構を備えた双方向マンバブロックを用いて,時間的に効率よくグローバルな時間的相互作用をキャプチャし,(2)グローバルな空間的関係をモデル化するための自己認識を利用したトランスフォーマーブロックの2段階で動作する。
論文 参考訳(メタデータ) (2025-06-27T19:20:41Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。
mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。
特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文 参考訳(メタデータ) (2025-05-03T06:23:18Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。
DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - A Biologically-Inspired Dual Stream World Model [0.456877715768796]
中間側頭葉(MTL)は哺乳類の体験構築システムであると考えられている。
本稿では,高次元観測から学習し,それらを文脈やコンテンツストリームに分解する新たなモデルであるDual Stream World Model (DSWM)を提案する。
この表現は強化学習基盤関数として有用であり,ダイナ様更新を用いた政策学習を支援するために生成モデルが有用であることを示す。
論文 参考訳(メタデータ) (2022-09-16T16:27:48Z) - One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction [1.0932251830449902]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:51:38Z) - Improving Coherence and Consistency in Neural Sequence Models with
Dual-System, Neuro-Symbolic Reasoning [49.6928533575956]
我々は、神経系1と論理系2の間を仲介するために神経推論を用いる。
強靭なストーリー生成とグラウンドド・インストラクション・フォローリングの結果、このアプローチは神経系世代におけるコヒーレンスと精度を高めることができることを示した。
論文 参考訳(メタデータ) (2021-07-06T17:59:49Z) - Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。
R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。
R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-01-13T03:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。