論文の概要: Reusable Slotwise Mechanisms
- arxiv url: http://arxiv.org/abs/2302.10503v2
- Date: Fri, 27 Oct 2023 07:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:45:25.977770
- Title: Reusable Slotwise Mechanisms
- Title(参考訳): 再利用可能なスロットワイズ機構
- Authors: Trang Nguyen, Amin Mansouri, Kanika Madan, Khuong Nguyen, Kartik
Ahuja, Dianbo Liu, and Yoshua Bengio
- Abstract要約: スロット間の通信を利用してオブジェクトのダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。
RSMはCCI(Central Contextual Information)を活用し、選択したメカニズムが残りのスロットにアクセスできるようにする。
実験により, 最先端手法と比較してRCMの優れた性能が示された。
- 参考スコア(独自算出の注目度): 45.48002329758044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents with the ability to comprehend and reason about the dynamics of
objects would be expected to exhibit improved robustness and generalization in
novel scenarios. However, achieving this capability necessitates not only an
effective scene representation but also an understanding of the mechanisms
governing interactions among object subsets. Recent studies have made
significant progress in representing scenes using object slots. In this work,
we introduce Reusable Slotwise Mechanisms, or RSM, a framework that models
object dynamics by leveraging communication among slots along with a modular
architecture capable of dynamically selecting reusable mechanisms for
predicting the future states of each object slot. Crucially, RSM leverages the
Central Contextual Information (CCI), enabling selected mechanisms to access
the remaining slots through a bottleneck, effectively allowing for modeling of
higher order and complex interactions that might require a sparse subset of
objects. Experimental results demonstrate the superior performance of RSM
compared to state-of-the-art methods across various future prediction and
related downstream tasks, including Visual Question Answering and action
planning. Furthermore, we showcase RSM's Out-of-Distribution generalization
ability to handle scenes in intricate scenarios.
- Abstract(参考訳): オブジェクトのダイナミクスを理解する能力と推論能力を持つエージェントは、新しいシナリオにおいてより堅牢性と一般化を示すことが期待される。
しかし、この機能を実現するには、効果的なシーン表現だけでなく、オブジェクトサブセット間の相互作用を管理するメカニズムの理解も必要である。
近年の研究では,オブジェクトスロットを用いたシーンの表現が著しく進歩している。
本稿では、各オブジェクトスロットの将来の状態を予測するための再利用可能なメカニズムを動的に選択可能なモジュールアーキテクチャとともに、スロット間の通信を活用してオブジェクトダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。
重要なことに、rsmはセントラルコンテクスト情報(cci)を活用して、ボトルネックを通じて残りのスロットにアクセスするための選択されたメカニズムを可能にし、オブジェクトのスパースなサブセットを必要とする複雑なインタラクションのモデリングを効果的に可能にする。
実験結果から, 視覚質問応答や行動計画など, 将来の予測や下流業務における最先端手法と比較して, RSMの優れた性能を示すことができた。
さらに,複雑なシナリオでシーンを扱うrsmのアウト・オブ・ディストリビューション・ジェネライゼーション機能についても紹介する。
関連論文リスト
- Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics [15.705023986053575]
本稿では,教師なし手法を用いて視覚データから多目的ダイナミクスを学習するための新しいフレームワークを提案する。
2つの新しいアーキテクチャ: RGBイメージからオブジェクト表現を発見するSlotTransportと、RGBイメージとロボットインタラクションからの集合的ダイナミクスを予測するSlotGNNである。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスをしっかりと予測する。
論文 参考訳(メタデータ) (2023-10-06T22:37:34Z) - CSM-H-R: A Context Modeling Framework in Supporting Reasoning Automation for Interoperable Intelligent Systems and Privacy Protection [0.07499722271664144]
本稿では,大規模システムにおけるハイレベルコンテキスト推論(HLC)の自動化のための新しいフレームワークを提案する。
フレームワークの設計は、インテリジェントシステムとCSMを扱うコンポーネント間の共有と相互コンテキスト、階層、関係、遷移の管理をサポートする。
ベクトルおよび行列計算へのHLC推論に関するフレームワーク実験の実装は、次のレベルの自動化に到達する可能性を示す。
論文 参考訳(メタデータ) (2023-08-21T22:21:15Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - A Closer Look at Reward Decomposition for High-Level Robotic
Explanations [18.019811754800767]
本稿では、報酬分解と抽象的な行動空間を組み合わせたQ-Map学習フレームワークを提案する。
本稿では,2つのロボットシナリオの定量的,定性的な分析を通じて,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T16:01:42Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Structure-Regularized Attention for Deformable Object Representation [17.120035855774344]
文脈依存のキャプチャは、ディープニューラルネットワークの表現力を改善するのに有用であることが証明されている。
自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。
本稿では,データに固有の構造的依存関係をモデル化することにより,コンテキスト利用の恩恵を受けることができる変形可能なオブジェクトの学習表現について考察する。
論文 参考訳(メタデータ) (2021-06-12T03:10:17Z) - GATSBI: Generative Agent-centric Spatio-temporal Object Interaction [9.328991021103294]
GAT SBIは生観測の系列を構造化表現に変換する生成モデルである。
GAT SBIはシーン分解や映像予測において最先端技術に比べて優れていることを示す。
論文 参考訳(メタデータ) (2021-04-09T09:45:00Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。