論文の概要: Dreamweaver: Learning Compositional World Representations from Pixels
- arxiv url: http://arxiv.org/abs/2501.14174v2
- Date: Tue, 18 Feb 2025 08:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:46.371883
- Title: Dreamweaver: Learning Compositional World Representations from Pixels
- Title(参考訳): Dreamweaver:Pixelから構成的世界表現を学ぶ
- Authors: Junyeob Baek, Yi-Fu Wu, Gautam Singh, Sungjin Ahn,
- Abstract要約: 人間は自然に世界の知覚を物体とその属性に分解する能力を持っている。
この認知的プロセスは、慣れ親しんだ概念を再結合することで、新しい未来を想像することができる。
生のビデオから階層的および構成的表現を発見するために設計されたニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 22.978369848454616
- License:
- Abstract: Humans have an innate ability to decompose their perceptions of the world into objects and their attributes, such as colors, shapes, and movement patterns. This cognitive process enables us to imagine novel futures by recombining familiar concepts. However, replicating this ability in artificial intelligence systems has proven challenging, particularly when it comes to modeling videos into compositional concepts and generating unseen, recomposed futures without relying on auxiliary data, such as text, masks, or bounding boxes. In this paper, we propose Dreamweaver, a neural architecture designed to discover hierarchical and compositional representations from raw videos and generate compositional future simulations. Our approach leverages a novel Recurrent Block-Slot Unit (RBSU) to decompose videos into their constituent objects and attributes. In addition, Dreamweaver uses a multi-future-frame prediction objective to capture disentangled representations for dynamic concepts more effectively as well as static concepts. In experiments, we demonstrate our model outperforms current state-of-the-art baselines for world modeling when evaluated under the DCI framework across multiple datasets. Furthermore, we show how the modularized concept representations of our model enable compositional imagination, allowing the generation of novel videos by recombining attributes from different objects.
- Abstract(参考訳): 人間は、世界の知覚を、色、形、動きパターンなど、対象と属性に分解する能力を持っている。
この認知的プロセスは、慣れ親しんだ概念を再結合することで、新しい未来を想像することができる。
しかし、この能力を人工知能システムに複製することは、特に合成概念にビデオをモデリングし、テキスト、マスク、バウンディングボックスなどの補助データに頼ることなく、目に見えない、再構成された未来を生成するという点において、難しいことが証明されている。
本稿では,Dreamweaverを提案する。これは生のビデオから階層的および構成的表現を発見し,将来的な構成シミュレーションを生成するために設計されたニューラルネットワークアーキテクチャである。
提案手法では,新しいリカレントブロックスロットユニット(RBSU)を用いて,動画を構成オブジェクトと属性に分解する。
さらに、Dreamweaverはマルチフューチャフレームの予測目標を使用して、動的概念と静的概念をより効果的に、非絡み合った表現をキャプチャする。
実験では、DCIフレームワークで複数のデータセットで評価した場合、我々のモデルは現在の最先端のベースラインよりも優れていることを示した。
さらに,本モデルにおいて,モジュール化された概念表現が構成的想像力を実現し,異なるオブジェクトから属性を再結合することで,新しいビデオを生成する方法を示す。
関連論文リスト
- Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - Compositional diversity in visual concept learning [18.907108368038216]
人間は構成性を活用して、新しい概念を効率的に学習し、親しみのある部分がどのように結合して新しい物体を形成するかを理解する。
そこで本研究では,豊かな関係構造を持つ「異星人」の分類・生成方法について考察する。
我々は,候補となる視覚図を生成するための最適なプログラムを探索するベイズプログラム誘導モデルを開発した。
論文 参考訳(メタデータ) (2023-05-30T19:30:50Z) - Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies [1.5990720051907859]
本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。
RNPは、部分階層学習問題に対処する最初の神経生成モデルである。
以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
論文 参考訳(メタデータ) (2022-06-16T22:02:06Z) - AIGenC: An AI generalisation model via creativity [1.933681537640272]
本稿では,創造性に関する認知理論に触発された計算モデル(AIGenC)を紹介する。
人工エージェントが変換可能な表現を学習、使用、生成するために必要なコンポーネントを配置する。
本稿では, 人工エージェントの配当効率を向上するモデルの有効性について論じる。
論文 参考訳(メタデータ) (2022-05-19T17:43:31Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - SketchEmbedNet: Learning Novel Concepts by Imitating Drawings [125.45799722437478]
モデルを用いて画像のスケッチを作成することによって学習した画像表現の特性について検討する。
この生成型クラスに依存しないモデルでは,新規な例,クラス,さらには新規なデータセットからの画像の情報埋め込みが,数ショットで生成されることが示されている。
論文 参考訳(メタデータ) (2020-08-27T16:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。