論文の概要: Improving Generative Imagination in Object-Centric World Models
- arxiv url: http://arxiv.org/abs/2010.02054v1
- Date: Mon, 5 Oct 2020 14:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:46:43.627767
- Title: Improving Generative Imagination in Object-Centric World Models
- Title(参考訳): オブジェクト中心世界モデルにおける生成的イマジネーションの改善
- Authors: Zhixuan Lin, Yi-Fu Wu, Skand Peri, Bofeng Fu, Jindong Jiang, Sungjin
Ahn
- Abstract要約: G-SWM(Generative Structured World Models)を紹介する。
G-SWMは、原則化されたフレームワークにおいて、以前のモデルのキープロパティを統一する。
これは、マルチモーダル不確実性と状況認識という、2つの重要な新しい能力を達成する。
- 参考スコア(独自算出の注目度): 20.495475118576604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable recent advances in object-centric generative world models
raise a few questions. First, while many of the recent achievements are
indispensable for making a general and versatile world model, it is quite
unclear how these ingredients can be integrated into a unified framework.
Second, despite using generative objectives, abilities for object detection and
tracking are mainly investigated, leaving the crucial ability of temporal
imagination largely under question. Third, a few key abilities for more
faithful temporal imagination such as multimodal uncertainty and
situation-awareness are missing. In this paper, we introduce Generative
Structured World Models (G-SWM). The G-SWM achieves the versatile world
modeling not only by unifying the key properties of previous models in a
principled framework but also by achieving two crucial new abilities,
multimodal uncertainty and situation-awareness. Our thorough investigation on
the temporal generation ability in comparison to the previous models
demonstrates that G-SWM achieves the versatility with the best or comparable
performance for all experiment settings including a few complex settings that
have not been tested before.
- Abstract(参考訳): オブジェクト中心生成世界モデルにおける最近の注目すべき進歩は、いくつかの疑問を提起している。
第一に、近年の成果の多くは、汎用的で多目的な世界モデルを作るのに欠かせないものであるが、これらの要素が統一された枠組みにどのように統合できるかは明らかになっていない。
第2に, 生成目標を用いたにもかかわらず, 物体検出と追跡の能力について主に検討し, 時間的想像力の重要な能力に疑問を呈する。
第3に、マルチモーダル不確実性や状況認識など、より忠実な時間的想像力を持ついくつかの重要な能力が欠落している。
本稿では,G-SWM(Generative Structured World Models)を紹介する。
G-SWMは、従来のモデルの主要な特性を原則的枠組みで統一するだけでなく、2つの重要な新しい能力、マルチモーダル不確実性と状況認識を達成することで、多目的世界モデリングを実現する。
これまでのモデルと比較して,時間生成能力に関する徹底的な調査を行った結果,g-swmは,これまでテストされなかったいくつかの複雑な設定を含むすべての実験環境において,最高の,あるいは同等の性能を持つ汎用性を達成していることが示された。
関連論文リスト
- Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - The Essential Role of Causality in Foundation World Models for Embodied
AI [79.12959738166327]
身体的なAIエージェントは、さまざまな現実世界環境で新しいタスクを実行する能力を必要とします。
現在の基礎モデルは、現実世界との物理的相互作用を正確にモデル化できないため、Embodied AIには不十分である。
因果関係の研究は、可能な相互作用の結果を正確に予測するために不可欠である、バリディカル世界モデルの構築に寄与する。
論文 参考訳(メタデータ) (2024-02-06T17:15:33Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。
私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。
このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-08T17:59:09Z) - Relax, it doesn't matter how you get there: A new self-supervised
approach for multi-timescale behavior analysis [8.543808476554695]
我々は,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発した。
我々のモデルは、全体およびすべてのグローバルタスクにおいて、9つのフレームレベルタスクのうち7つのうち1番目または2番目をランク付けします。
論文 参考訳(メタデータ) (2023-03-15T17:58:48Z) - Multiscale Generative Models: Improving Performance of a Generative
Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。
我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。
本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T13:05:56Z) - Quantifying Multimodality in World Models [5.593667856320704]
RLに基づく世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。
不確実な将来の状態の正しいモデリングと検出は、安全な方法で重要な状況を扱うための基盤となる。
論文 参考訳(メタデータ) (2021-12-14T09:52:18Z) - SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred
from Vision [73.26414295633846]
最近提案されたモデルのクラスは、高次元観測から潜在力学を学習しようと試みている。
既存の手法は画像再構成の品質に依存しており、学習した潜在力学の質を常に反映しているわけではない。
我々は、基礎となるハミルトン力学が忠実に捕獲されたかどうかのバイナリ指標を含む、一連の新しい尺度を開発する。
論文 参考訳(メタデータ) (2021-11-10T23:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。