論文の概要: MIND: Benchmarking Memory Consistency and Action Control in World Models
- arxiv url: http://arxiv.org/abs/2602.08025v2
- Date: Wed, 11 Feb 2026 18:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.026381
- Title: MIND: Benchmarking Memory Consistency and Action Control in World Models
- Title(参考訳): MIND:世界モデルにおけるメモリ一貫性とアクション制御のベンチマーク
- Authors: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang,
- Abstract要約: 我々は、WarrlDモデルにおけるメモリ一貫性とアクションcoNtrolを評価するための、最初のオープンドメインクローズドループ再検討ベンチマークであるMINDを紹介する。
MINDには1080pと24FPSの高画質ビデオが250本あり、その中には100本(ファーストパーソン)+100本(サードパーソン)のビデオクリップが共有アクションスペースの下に置かれている。
共有シーン下でのアクション空間間のアクション一般化能力を評価するために,キャラクタ移動速度やカメラ回転角など,さまざまなアクション空間を設計する。
- 参考スコア(独自算出の注目度): 28.346879515303755
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Code: https://github.com/CSU-JPG/MIND.
- Abstract(参考訳): 世界モデルは、動的な視覚環境を理解し、記憶し、予測することを目的としている。
このギャップに対処するため、WarrlDモデルにおけるメモリの一貫性と動作coNtrolを評価するための、最初のオープンドメインクローズドループ再検討ベンチマークであるMINDを紹介する。
MINDには1080pと24FPSの高画質ビデオが250本含まれており、100本(ファーストパーソン)+100本(サードパーソン)のビデオクリップが共有アクションスペースで共有され、25本+25本がアクションスペースで8つのシーンをカバーする。
我々は,記憶の一貫性と動作制御,時間的安定性と視点間のコンテキスト的コヒーレンスといった2つのコア能力を測定するための効率的な評価フレームワークを設計する。
さらに,異なる動きの速度やカメラ回転角を含む様々なアクション空間を設計し,共有シーン下でのアクション空間間のアクション一般化能力を評価する。
MIND上での将来のパフォーマンスベンチマークを容易にするため,新しいインタラクティブなビデオ・ツー・ワールドベースラインであるMIND-Worldを紹介した。
大規模な実験は、MINDの完全性を実証し、長期記憶の整合性を維持することの難しさや行動空間全体の一般化など、現在の世界のモデルにおける重要な課題を明らかにする。
コード:https://github.com/CSU-JPG/MIND。
関連論文リスト
- SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。