Fugu-MT 論文翻訳(概要): Improving Generative Imagination in Object-Centric World Models

論文の概要: Improving Generative Imagination in Object-Centric World Models

arxiv url: http://arxiv.org/abs/2010.02054v1
Date: Mon, 5 Oct 2020 14:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 20:46:43.627767
Title: Improving Generative Imagination in Object-Centric World Models
Title（参考訳）: オブジェクト中心世界モデルにおける生成的イマジネーションの改善
Authors: Zhixuan Lin, Yi-Fu Wu, Skand Peri, Bofeng Fu, Jindong Jiang, Sungjin Ahn
Abstract要約: G-SWM(Generative Structured World Models)を紹介する。 G-SWMは、原則化されたフレームワークにおいて、以前のモデルのキープロパティを統一する。これは、マルチモーダル不確実性と状況認識という、2つの重要な新しい能力を達成する。
参考スコア（独自算出の注目度）: 20.495475118576604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable recent advances in object-centric generative world models raise a few questions. First, while many of the recent achievements are indispensable for making a general and versatile world model, it is quite unclear how these ingredients can be integrated into a unified framework. Second, despite using generative objectives, abilities for object detection and tracking are mainly investigated, leaving the crucial ability of temporal imagination largely under question. Third, a few key abilities for more faithful temporal imagination such as multimodal uncertainty and situation-awareness are missing. In this paper, we introduce Generative Structured World Models (G-SWM). The G-SWM achieves the versatile world modeling not only by unifying the key properties of previous models in a principled framework but also by achieving two crucial new abilities, multimodal uncertainty and situation-awareness. Our thorough investigation on the temporal generation ability in comparison to the previous models demonstrates that G-SWM achieves the versatility with the best or comparable performance for all experiment settings including a few complex settings that have not been tested before.
Abstract（参考訳）: オブジェクト中心生成世界モデルにおける最近の注目すべき進歩は、いくつかの疑問を提起している。第一に、近年の成果の多くは、汎用的で多目的な世界モデルを作るのに欠かせないものであるが、これらの要素が統一された枠組みにどのように統合できるかは明らかになっていない。第2に, 生成目標を用いたにもかかわらず, 物体検出と追跡の能力について主に検討し, 時間的想像力の重要な能力に疑問を呈する。第3に、マルチモーダル不確実性や状況認識など、より忠実な時間的想像力を持ついくつかの重要な能力が欠落している。本稿では,G-SWM(Generative Structured World Models)を紹介する。 G-SWMは、従来のモデルの主要な特性を原則的枠組みで統一するだけでなく、2つの重要な新しい能力、マルチモーダル不確実性と状況認識を達成することで、多目的世界モデリングを実現する。これまでのモデルと比較して,時間生成能力に関する徹底的な調査を行った結果,g-swmは,これまでテストされなかったいくつかの複雑な設定を含むすべての実験環境において,最高の,あるいは同等の性能を持つ汎用性を達成していることが示された。

関連論文リスト

Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文参考訳（メタデータ） (2025-05-04T11:57:02Z)
Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.35284571052435]
実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
論文参考訳（メタデータ） (2025-03-06T17:31:43Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-13T18:01:49Z)
Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文参考訳（メタデータ） (2024-06-08T15:30:46Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文参考訳（メタデータ） (2024-02-28T15:19:33Z)
The Essential Role of Causality in Foundation World Models for Embodied AI [102.75402420915965]
身体的なAIエージェントは、さまざまな現実世界環境で新しいタスクを実行する能力を必要とします。現在の基礎モデルは物理的相互作用を正確にモデル化することができないため、Embodied AIには不十分である。因果関係の研究は、検証世界モデルの構築に寄与する。
論文参考訳（メタデータ） (2024-02-06T17:15:33Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文参考訳（メタデータ） (2023-06-08T17:59:09Z)
Multiscale Generative Models: Improving Performance of a Generative Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2022-01-24T13:05:56Z)
SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred from Vision [73.26414295633846]
最近提案されたモデルのクラスは、高次元観測から潜在力学を学習しようと試みている。既存の手法は画像再構成の品質に依存しており、学習した潜在力学の質を常に反映しているわけではない。我々は、基礎となるハミルトン力学が忠実に捕獲されたかどうかのバイナリ指標を含む、一連の新しい尺度を開発する。
論文参考訳（メタデータ） (2021-11-10T23:26:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。