論文の概要: Improving Generative Imagination in Object-Centric World Models
- arxiv url: http://arxiv.org/abs/2010.02054v1
- Date: Mon, 5 Oct 2020 14:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:46:43.627767
- Title: Improving Generative Imagination in Object-Centric World Models
- Title(参考訳): オブジェクト中心世界モデルにおける生成的イマジネーションの改善
- Authors: Zhixuan Lin, Yi-Fu Wu, Skand Peri, Bofeng Fu, Jindong Jiang, Sungjin
Ahn
- Abstract要約: G-SWM(Generative Structured World Models)を紹介する。
G-SWMは、原則化されたフレームワークにおいて、以前のモデルのキープロパティを統一する。
これは、マルチモーダル不確実性と状況認識という、2つの重要な新しい能力を達成する。
- 参考スコア(独自算出の注目度): 20.495475118576604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable recent advances in object-centric generative world models
raise a few questions. First, while many of the recent achievements are
indispensable for making a general and versatile world model, it is quite
unclear how these ingredients can be integrated into a unified framework.
Second, despite using generative objectives, abilities for object detection and
tracking are mainly investigated, leaving the crucial ability of temporal
imagination largely under question. Third, a few key abilities for more
faithful temporal imagination such as multimodal uncertainty and
situation-awareness are missing. In this paper, we introduce Generative
Structured World Models (G-SWM). The G-SWM achieves the versatile world
modeling not only by unifying the key properties of previous models in a
principled framework but also by achieving two crucial new abilities,
multimodal uncertainty and situation-awareness. Our thorough investigation on
the temporal generation ability in comparison to the previous models
demonstrates that G-SWM achieves the versatility with the best or comparable
performance for all experiment settings including a few complex settings that
have not been tested before.
- Abstract(参考訳): オブジェクト中心生成世界モデルにおける最近の注目すべき進歩は、いくつかの疑問を提起している。
第一に、近年の成果の多くは、汎用的で多目的な世界モデルを作るのに欠かせないものであるが、これらの要素が統一された枠組みにどのように統合できるかは明らかになっていない。
第2に, 生成目標を用いたにもかかわらず, 物体検出と追跡の能力について主に検討し, 時間的想像力の重要な能力に疑問を呈する。
第3に、マルチモーダル不確実性や状況認識など、より忠実な時間的想像力を持ついくつかの重要な能力が欠落している。
本稿では,G-SWM(Generative Structured World Models)を紹介する。
G-SWMは、従来のモデルの主要な特性を原則的枠組みで統一するだけでなく、2つの重要な新しい能力、マルチモーダル不確実性と状況認識を達成することで、多目的世界モデリングを実現する。
これまでのモデルと比較して,時間生成能力に関する徹底的な調査を行った結果,g-swmは,これまでテストされなかったいくつかの複雑な設定を含むすべての実験環境において,最高の,あるいは同等の性能を持つ汎用性を達成していることが示された。
関連論文リスト
- Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。
この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-06-08T15:30:46Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - The Essential Role of Causality in Foundation World Models for Embodied AI [102.75402420915965]
身体的なAIエージェントは、さまざまな現実世界環境で新しいタスクを実行する能力を必要とします。
現在の基礎モデルは物理的相互作用を正確にモデル化することができないため、Embodied AIには不十分である。
因果関係の研究は、検証世界モデルの構築に寄与する。
論文 参考訳(メタデータ) (2024-02-06T17:15:33Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。
私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。
このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-08T17:59:09Z) - Multiscale Generative Models: Improving Performance of a Generative
Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。
我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。
本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T13:05:56Z) - SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred
from Vision [73.26414295633846]
最近提案されたモデルのクラスは、高次元観測から潜在力学を学習しようと試みている。
既存の手法は画像再構成の品質に依存しており、学習した潜在力学の質を常に反映しているわけではない。
我々は、基礎となるハミルトン力学が忠実に捕獲されたかどうかのバイナリ指標を含む、一連の新しい尺度を開発する。
論文 参考訳(メタデータ) (2021-11-10T23:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。