論文の概要: WorldSimBench: Towards Video Generation Models as World Simulators
- arxiv url: http://arxiv.org/abs/2410.18072v1
- Date: Wed, 23 Oct 2024 17:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:40.027228
- Title: WorldSimBench: Towards Video Generation Models as World Simulators
- Title(参考訳): WorldSimBench:World Simulatorとしてビデオ生成モデルを目指す
- Authors: Yiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang,
- Abstract要約: 我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
- 参考スコア(独自算出の注目度): 79.69709361730865
- License:
- Abstract: Recent advancements in predictive models have demonstrated exceptional capabilities in predicting the future state of objects and scenes. However, the lack of categorization based on inherent characteristics continues to hinder the progress of predictive model development. Additionally, existing benchmarks are unable to effectively evaluate higher-capability, highly embodied predictive models from an embodied perspective. In this work, we classify the functionalities of predictive models into a hierarchy and take the first step in evaluating World Simulators by proposing a dual evaluation framework called WorldSimBench. WorldSimBench includes Explicit Perceptual Evaluation and Implicit Manipulative Evaluation, encompassing human preference assessments from the visual perspective and action-level evaluations in embodied tasks, covering three representative embodied scenarios: Open-Ended Embodied Environment, Autonomous, Driving, and Robot Manipulation. In the Explicit Perceptual Evaluation, we introduce the HF-Embodied Dataset, a video assessment dataset based on fine-grained human feedback, which we use to train a Human Preference Evaluator that aligns with human perception and explicitly assesses the visual fidelity of World Simulators. In the Implicit Manipulative Evaluation, we assess the video-action consistency of World Simulators by evaluating whether the generated situation-aware video can be accurately translated into the correct control signals in dynamic environments. Our comprehensive evaluation offers key insights that can drive further innovation in video generation models, positioning World Simulators as a pivotal advancement toward embodied artificial intelligence.
- Abstract(参考訳): 予測モデルの最近の進歩は、オブジェクトやシーンの将来状態を予測する際、例外的な能力を示している。
しかし、固有の特徴に基づく分類の欠如は、予測モデル開発の進展を妨げ続けている。
さらに、既存のベンチマークでは、具体的観点から高い能力、高度に具体化された予測モデルを効果的に評価することはできない。
本研究では、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれており、視覚的な視点からの人間の嗜好評価と、具体的タスクにおけるアクションレベルの評価を包含し、3つの代表的な実施シナリオをカバーしている。
HF-Embodied Dataset(HF-Embodied Dataset)は,人間の知覚と協調し,世界シミュレータの視覚的忠実度を明確に評価するヒューマン・パラメータ・評価器を訓練するために使用される,人間の微粒なフィードバックに基づくビデオアセスメントデータセットである。
In Implicit Manipulative Evaluationでは、動的環境下で生成された状況を意識した映像が正しい制御信号に正確に変換できるかどうかを評価することにより、World Simulatorの動作一貫性を評価する。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
関連論文リスト
- EVA: An Embodied World Model for Future Video Anticipation [42.937348053592636]
複雑なビデオ予測を4つのメタタスクに分解し、世界モデルがこの問題をよりきめ細かな方法で処理できるようにする。
本稿では,Embodied Video Precipation Benchmark (EVA-Bench) という新しいベンチマークを導入する。
本稿では,映像理解と生成を目的とした統合フレームワークであるEmbodied Video Precipator (EVA)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - WheelPose: Data Synthesis Techniques to Improve Pose Estimation Performance on Wheelchair Users [5.057643544417776]
既存のポーズ推定モデルは、トレーニングデータに表現力の欠如があるため、車椅子利用者にはあまり役に立たない。
データ収集におけるこの相違に対処するためのデータ合成パイプラインを提案する。
我々のパイプラインは,Unityゲームエンジンでシミュレーションされたモーションキャプチャデータとモーション生成出力を用いて,車椅子利用者の合成データを生成する。
論文 参考訳(メタデータ) (2024-04-25T22:17:32Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - AcME -- Accelerated Model-agnostic Explanations: Fast Whitening of the
Machine-Learning Black Box [1.7534486934148554]
解釈可能性のアプローチは、ユーザが待つことなく、実行可能な洞察を提供するべきです。
本稿では,グローバルレベルとローカルレベルの両方で特徴的重要性のスコアを迅速に提供する解釈可能性アプローチである,アクセレーションモデル非依存説明(AcME)を提案する。
AcMEは機能ランキングを計算しますが、機能値の変化がモデル予測にどのように影響するかを評価するために、What-if分析ツールも提供しています。
論文 参考訳(メタデータ) (2021-12-23T15:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。