Fugu-MT 論文翻訳(概要): DMWM: Dual-Mind World Model with Long-Term Imagination

論文の概要: DMWM: Dual-Mind World Model with Long-Term Imagination

arxiv url: http://arxiv.org/abs/2502.07591v1
Date: Tue, 11 Feb 2025 14:40:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.192366
Title: DMWM: Dual-Mind World Model with Long-Term Imagination
Title（参考訳）: DMWM:長期イマジネーションによる2次元世界モデル
Authors: Lingyi Wang, Rashed Shelim, Walid Saad, Naren Ramakrishnan,
Abstract要約: 本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
参考スコア（独自算出の注目度）: 53.98633183204453
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Imagination in world models is crucial for enabling agents to learn long-horizon policy in a sample-efficient manner. Existing recurrent state-space model (RSSM)-based world models depend on single-step statistical inference to capture the environment dynamics, and, hence, they are unable to perform long-term imagination tasks due to the accumulation of prediction errors. Inspired by the dual-process theory of human cognition, we propose a novel dual-mind world model (DMWM) framework that integrates logical reasoning to enable imagination with logical consistency. DMWM is composed of two components: an RSSM-based System 1 (RSSM-S1) component that handles state transitions in an intuitive manner and a logic-integrated neural network-based System 2 (LINN-S2) component that guides the imagination process through hierarchical deep logical reasoning. The inter-system feedback mechanism is designed to ensure that the imagination process follows the logical rules of the real environment. The proposed framework is evaluated on benchmark tasks that require long-term planning from the DMControl suite. Extensive experimental results demonstrate that the proposed framework yields significant improvements in terms of logical coherence, trial efficiency, data efficiency and long-term imagination over the state-of-the-art world models.
Abstract（参考訳）: 世界モデルにおけるイマジネーションは、エージェントがサンプル効率のよいロングホライズンポリシーを学習できるようにするために不可欠である。既存の状態空間モデル(RSSM)に基づく世界モデルは、環境力学を捉えるために単一ステップの統計的推測に依存しているため、予測誤差の蓄積による長期的な想像上のタスクは実行できない。人間の認知の二重プロセス理論に触発されて、論理的推論を統合し、論理的一貫性で想像力を実現する新しいデュアルミンド世界モデル(DMWM)を提案する。 DMWMは、直感的に状態遷移を処理するRSSMベースのシステム1(RSSM-S1)コンポーネントと、階層的な深い論理的推論を通じて想像プロセスを導くロジック統合ニューラルネットワークベースのシステム2(LINN-S2)コンポーネントの2つのコンポーネントで構成されている。システム間フィードバック機構は、実環境の論理的ルールに従ってイマジネーションプロセスが実行されるように設計されている。提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。大規模な実験結果から,提案手法は最先端の世界モデルに対する論理コヒーレンス,試行効率,データ効率,長期的想像力の面で大きな改善をもたらすことが示された。

関連論文リスト

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:27:02Z)
Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。 DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文参考訳（メタデータ） (2025-01-26T03:29:18Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文参考訳（メタデータ） (2024-01-30T00:21:41Z)
A Biologically-Inspired Dual Stream World Model [0.456877715768796]
中間側頭葉(MTL)は哺乳類の体験構築システムであると考えられている。本稿では,高次元観測から学習し,それらを文脈やコンテンツストリームに分解する新たなモデルであるDual Stream World Model (DSWM)を提案する。この表現は強化学習基盤関数として有用であり,ダイナ様更新を用いた政策学習を支援するために生成モデルが有用であることを示す。
論文参考訳（メタデータ） (2022-09-16T16:27:48Z)
One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction [1.0932251830449902]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
論文参考訳（メタデータ） (2021-11-24T06:51:38Z)
Improving Coherence and Consistency in Neural Sequence Models with Dual-System, Neuro-Symbolic Reasoning [49.6928533575956]
我々は、神経系1と論理系2の間を仲介するために神経推論を用いる。強靭なストーリー生成とグラウンドド・インストラクション・フォローリングの結果、このアプローチは神経系世代におけるコヒーレンスと精度を高めることができることを示した。
論文参考訳（メタデータ） (2021-07-06T17:59:49Z)
Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。 R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。 R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文参考訳（メタデータ） (2020-01-13T03:45:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。