論文の概要: Slot Structured World Models
- arxiv url: http://arxiv.org/abs/2402.03326v1
- Date: Mon, 8 Jan 2024 21:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:53:58.780014
- Title: Slot Structured World Models
- Title(参考訳): スロット構造世界モデル
- Authors: Jonathan Collu, Riccardo Majellaro, Aske Plaat, Thomas M. Moerland
- Abstract要約: 最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。
Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to perceive and reason about individual objects and their
interactions is a goal to be achieved for building intelligent artificial
systems. State-of-the-art approaches use a feedforward encoder to extract
object embeddings and a latent graph neural network to model the interaction
between these object embeddings. However, the feedforward encoder can not
extract {\it object-centric} representations, nor can it disentangle multiple
objects with similar appearance. To solve these issues, we introduce {\it Slot
Structured World Models} (SSWM), a class of world models that combines an {\it
object-centric} encoder (based on Slot Attention) with a latent graph-based
dynamics model. We evaluate our method in the Spriteworld benchmark with simple
rules of physical interaction, where Slot Structured World Models consistently
outperform baselines on a range of (multi-step) prediction tasks with
action-conditional object interactions. All code to reproduce paper experiments
is available from
\url{https://github.com/JonathanCollu/Slot-Structured-World-Models}.
- Abstract(参考訳): 個々のオブジェクトとその相互作用を知覚し、推論する能力は、インテリジェントな人工システムを構築するための目標である。
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクト埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクト埋め込み間のインタラクションをモデル化する。
しかし、フィードフォワードエンコーダは {\it object-centric} 表現を抽出することができず、類似した外観で複数のオブジェクトをアンタングルできない。
これらの問題を解決するために、Slot Attentionに基づく(オブジェクト中心の)エンコーダと潜在グラフに基づく動的モデルを組み合わせた世界モデルのクラスであるSSWM( {\it Slot Structured World Models)を導入する。
本研究では,Slot Structured World Modelsが動作条件とオブジェクトの相互作用を伴う複数の(複数段階の)予測タスクのベースラインを一貫して上回り,物理的相互作用の単純な規則を用いてSpriteworldベンチマークで評価する。
紙の実験を再現するコードは \url{https://github.com/JonathanCollu/Slot-Structured-World-Models} から入手できる。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文 参考訳(メタデータ) (2022-10-12T01:53:58Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。