論文の概要: Solving Reasoning Tasks with a Slot Transformer
- arxiv url: http://arxiv.org/abs/2210.11394v1
- Date: Thu, 20 Oct 2022 16:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:35:22.479188
- Title: Solving Reasoning Tasks with a Slot Transformer
- Title(参考訳): スロット変換器による推論タスクの解法
- Authors: Ryan Faulkner, Daniel Zoran
- Abstract要約: 本稿では、スロットアテンション、トランスフォーマー、およびビデオシーンデータに対する反復的変動推論を利用して表現を推論するアーキテクチャであるSlot Transformerを提案する。
アーキテクチャの主要なコンポーネントの有効性,モデルの表現能力,不完全な入力から予測できる能力について評価する。
- 参考スコア(独自算出の注目度): 7.966351917016229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to carve the world into useful abstractions in order to reason
about time and space is a crucial component of intelligence. In order to
successfully perceive and act effectively using senses we must parse and
compress large amounts of information for further downstream reasoning to take
place, allowing increasingly complex concepts to emerge. If there is any hope
to scale representation learning methods to work with real world scenes and
temporal dynamics then there must be a way to learn accurate, concise, and
composable abstractions across time. We present the Slot Transformer, an
architecture that leverages slot attention, transformers and iterative
variational inference on video scene data to infer such representations. We
evaluate the Slot Transformer on CLEVRER, Kinetics-600 and CATER datesets and
demonstrate that the approach allows us to develop robust modeling and
reasoning around complex behaviours as well as scores on these datasets that
compare favourably to existing baselines. Finally we evaluate the effectiveness
of key components of the architecture, the model's representational capacity
and its ability to predict from incomplete input.
- Abstract(参考訳): 時間と空間を推論するために世界を有用な抽象化に彫る能力は、知性の重要な構成要素である。
感覚を利用して効果的に知覚し、行動するためには、より下流の推論を行うために大量の情報を解析し、圧縮しなければなりません。
実世界のシーンや時間的ダイナミクスを扱うために表現学習手法をスケールしたいという希望があれば、時間をかけて正確で簡潔で構成可能な抽象化を学ぶ方法がある必要があります。
本稿では,スロットアテンション,トランスフォーマー,および映像データに対する反復的変動推論を利用してそのような表現を推論するアーキテクチャであるSlot Transformerを提案する。
clevrer, kinetics-600 および cater dateets のスロットトランスフォーマーを評価し,このアプローチにより,複雑な振る舞いに関する堅牢なモデリングと推論,および既存のベースラインと比較可能なこれらのデータセットのスコアの開発が可能になることを実証する。
最後に、アーキテクチャの重要なコンポーネントの有効性、モデルの表現能力、不完全な入力から予測する能力を評価する。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Reasoning-Enhanced Object-Centric Learning for Videos [15.554898985821302]
複雑なシーンにおけるモデルの知覚能力を高めるため,Slot ベースの Memory buffer (STATM) を用いた Time-Space Transformer を開発した。
実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-22T14:41:55Z) - Emergence and Function of Abstract Representations in Self-Supervised
Transformers [0.0]
本研究では,部分的にマスキングされた視覚シーンを再構築するために訓練された小型トランスフォーマーの内部動作について検討する。
ネットワークは、データセットのすべての意味的特徴をエンコードする中間抽象表現(抽象表現)を開発する。
正確な操作実験を用いて、抽象化がネットワークの意思決定プロセスの中心であることを実証する。
論文 参考訳(メタデータ) (2023-12-08T20:47:15Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Attention-based Adversarial Appearance Learning of Augmented Pedestrians [49.25430012369125]
本稿では,歩行者認識タスクのための現実的なデータを合成する手法を提案する。
本手法は, 対向的損失によって駆動される注意機構を用いて, ドメインの相違を学習する。
提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。
論文 参考訳(メタデータ) (2021-07-06T15:27:00Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。