論文の概要: Reusable Slotwise Mechanisms
- arxiv url: http://arxiv.org/abs/2302.10503v1
- Date: Tue, 21 Feb 2023 08:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:56:57.388757
- Title: Reusable Slotwise Mechanisms
- Title(参考訳): 再利用可能なスロットワイズ機構
- Authors: Trang Nguyen, Amin Mansouri, Kanika Madan, Khuong Nguyen, Kartik
Ahuja, Dianbo Liu, and Yoshua Bengio
- Abstract要約: 再利用可能なスロットワイズ機構は、各スロットの次の状態を予測するために、シーンのスロットワイズ表現とモジュールアーキテクチャを共同で学習する。
RSMは,グリッドワールド環境からアタリ2600ゲームに至るまで,様々な次世代予測タスクにおいて,最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 58.44234665282398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents that can understand and reason over the dynamics of objects can have a
better capability to act robustly and generalize to novel scenarios. Such an
ability, however, requires a suitable representation of the scene as well as an
understanding of the mechanisms that govern the interactions of different
subsets of objects. To address this problem, we propose RSM, or Reusable
Slotwise Mechanisms, that jointly learns a slotwise representation of the scene
and a modular architecture that dynamically chooses one mechanism among a set
of reusable mechanisms to predict the next state of each slot. RSM crucially
takes advantage of a \textit{Central Contextual Information (CCI)}, which lets
each selected reusable mechanism access the rest of the slots through a
bottleneck, effectively allowing for modeling higher order and complex
interactions that might require a sparse subset of objects. We show how this
model outperforms state-of-the-art methods in a variety of next-step prediction
tasks ranging from grid-world environments to Atari 2600 games. Particularly,
we challenge methods that model the dynamics with Graph Neural Networks (GNNs)
on top of slotwise representations, and modular architectures that restrict the
interactions to be only pairwise. Finally, we show that RSM is able to
generalize to scenes with objects varying in number and shape, highlighting its
out-of-distribution generalization capabilities. Our implementation is
available
online\footnote{\hyperlink{https://github.com/trangnnp/RSM}{github.com/trangnnp/RSM}}.
- Abstract(参考訳): オブジェクトのダイナミクスを理解し、推論できるエージェントは、堅牢に行動し、新しいシナリオに一般化するより良い能力を持つことができる。
しかし、このような能力はシーンの適切な表現と、オブジェクトの異なるサブセットの相互作用を管理するメカニズムの理解を必要とする。
この問題を解決するために、シーンのスロットワイズ表現を共同で学習するRSM(Reusable Slotwise Mechanisms)と、各スロットの次の状態を予測するための再利用可能なメカニズムのセットのうち1つのメカニズムを動的に選択するモジュールアーキテクチャを提案する。
rsmは、各選択された再利用可能なメカニズムがボトルネックを通じて残りのスロットにアクセスすることを可能にする \textit{central context information (cci) の利点を最大限生かしている。
グリッド環境からatari 2600ゲームまで,さまざまな次世代予測タスクにおいて,このモデルが最先端の手法に勝ることを示す。
特に、スロットワイズ表現の上にグラフニューラルネットワーク(GNN)を置き、相互作用をペアワイズに限定するモジュラーアーキテクチャで動的にモデル化する手法に挑戦する。
最後に, RSMは, 物体の数や形状の異なるシーンに一般化できることを示し, 分布外一般化機能を強調した。
実装はhttps://github.com/trangnnp/rsm}{github.com/trangnnp/rsm}}。
関連論文リスト
- Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics [15.705023986053575]
本稿では,教師なし手法を用いて視覚データから多目的ダイナミクスを学習するための新しいフレームワークを提案する。
2つの新しいアーキテクチャ: RGBイメージからオブジェクト表現を発見するSlotTransportと、RGBイメージとロボットインタラクションからの集合的ダイナミクスを予測するSlotGNNである。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスをしっかりと予測する。
論文 参考訳(メタデータ) (2023-10-06T22:37:34Z) - CSM-H-R: A Context Modeling Framework in Supporting Reasoning Automation for Interoperable Intelligent Systems and Privacy Protection [0.07499722271664144]
本稿では,大規模システムにおけるハイレベルコンテキスト推論(HLC)の自動化のための新しいフレームワークを提案する。
フレームワークの設計は、インテリジェントシステムとCSMを扱うコンポーネント間の共有と相互コンテキスト、階層、関係、遷移の管理をサポートする。
ベクトルおよび行列計算へのHLC推論に関するフレームワーク実験の実装は、次のレベルの自動化に到達する可能性を示す。
論文 参考訳(メタデータ) (2023-08-21T22:21:15Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - A Closer Look at Reward Decomposition for High-Level Robotic
Explanations [18.019811754800767]
本稿では、報酬分解と抽象的な行動空間を組み合わせたQ-Map学習フレームワークを提案する。
本稿では,2つのロボットシナリオの定量的,定性的な分析を通じて,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T16:01:42Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Structure-Regularized Attention for Deformable Object Representation [17.120035855774344]
文脈依存のキャプチャは、ディープニューラルネットワークの表現力を改善するのに有用であることが証明されている。
自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。
本稿では,データに固有の構造的依存関係をモデル化することにより,コンテキスト利用の恩恵を受けることができる変形可能なオブジェクトの学習表現について考察する。
論文 参考訳(メタデータ) (2021-06-12T03:10:17Z) - GATSBI: Generative Agent-centric Spatio-temporal Object Interaction [9.328991021103294]
GAT SBIは生観測の系列を構造化表現に変換する生成モデルである。
GAT SBIはシーン分解や映像予測において最先端技術に比べて優れていることを示す。
論文 参考訳(メタデータ) (2021-04-09T09:45:00Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。