論文の概要: Parallelized Spatiotemporal Binding
- arxiv url: http://arxiv.org/abs/2402.17077v1
- Date: Mon, 26 Feb 2024 23:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:22:50.787437
- Title: Parallelized Spatiotemporal Binding
- Title(参考訳): 並列化時空間結合
- Authors: Gautam Singh, Yue Wang, Jiawei Yang, Boris Ivanovic, Sungjin Ahn,
Marco Pavone, Tong Che
- Abstract要約: 逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。
従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。
現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。
- 参考スコア(独自算出の注目度): 47.67393266882402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern best practices advocate for scalable architectures that support
long-range interactions, object-centric models are yet to fully embrace these
architectures. In particular, existing object-centric models for handling
sequential inputs, due to their reliance on RNN-based implementation, show poor
stability and capacity and are slow to train on long sequences. We introduce
Parallelizable Spatiotemporal Binder or PSB, the first
temporally-parallelizable slot learning architecture for sequential inputs.
Unlike conventional RNN-based approaches, PSB produces object-centric
representations, known as slots, for all time-steps in parallel. This is
achieved by refining the initial slots across all time-steps through a fixed
number of layers equipped with causal attention. By capitalizing on the
parallelism induced by our architecture, the proposed model exhibits a
significant boost in efficiency. In experiments, we test PSB extensively as an
encoder within an auto-encoding framework paired with a wide variety of decoder
options. Compared to the state-of-the-art, our architecture demonstrates stable
training on longer sequences, achieves parallelization that results in a 60%
increase in training speed, and yields performance that is on par with or
better on unsupervised 2D and 3D object-centric scene decomposition and
understanding.
- Abstract(参考訳): 現代のベストプラクティスは、長距離インタラクションをサポートするスケーラブルなアーキテクチャを提唱していますが、オブジェクト指向モデルは、これらのアーキテクチャを完全に受け入れていません。
特に、RNNベースの実装に依存している既存の逐次入力を処理するオブジェクト中心モデルでは、安定性とキャパシティが低く、長いシーケンスでのトレーニングが遅い。
逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。
従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。
これは、すべての時間ステップにまたがる初期スロットを、因果的注意を備えた一定数の層を通して精錬することで達成される。
アーキテクチャによって引き起こされる並列性に乗じて、提案モデルは効率を大幅に向上させる。
実験では、さまざまなデコーダオプションと組み合わせた自動エンコーディングフレームワーク内で、psbをエンコーダとして広範囲にテストする。
現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Physics-inspired Ising Computing with Ring Oscillator Activated p-bits [0.0]
我々は800pビットの真に非同期で中規模のpコンピュータを設計・実装する。
我々は,非同期アーキテクチャの性能を,理想的な同期設計と比較した。
我々の結果は、何百万ものフリーランニングpビットを持つ大規模pビットコンピュータの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-05-15T23:46:58Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。
本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文 参考訳(メタデータ) (2022-03-10T00:24:47Z) - Parallel Spatio-Temporal Attention-Based TCN for Multivariate Time
Series Prediction [4.211344046281808]
予測ウィンドウの拡張を支援するために注意を払っているリカレントニューラルネットワークは、このタスクの最先端技術である。
それらの消失する勾配、短い記憶、シリアルアーキテクチャは、複雑なデータによる長距離予測にRNNを根本的に不適当にしている、と我々は主張する。
そこで我々は,PSTA-TCNというフレームワークを提案する。これは並列時間的注意機構を組み合わして,動的内部相関を積み重ねたTCNバックボーンから抽出する。
論文 参考訳(メタデータ) (2022-03-02T09:27:56Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。